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现代 计算 机 系统 的 软 硬 件 架构 十 分 复杂 ， 是 所 有 IT 相关 技术 的 根源 。 本 书 尝试 从 原始 的 零 认 知 状态 开始 ， 逐 
步 从 最 基础 的 数字 电路 一 直 介 绍 到 计算 机 操作 系统 以 及 人 工 智能 。 本 书 用 通俗 的 语言 、 恰 到 好 处 的 疑问 、 符 合 原生 
态 认 知 思维 的 切入 点 ， 来 帮助 读者 洞悉 整个 计算 机 底层 世界 。 本 书 在 写作 上 遵循 “ 先 介绍 原因 ， 后 思考 ， 然 后 介绍 
解决 方案 ， 最 终 提炼 抽象 成 概念 ”的 原则 。 全 书 脉络 清晰 ， 带 领 读 者 重 走 作者 的 认 知 之 路 。 本 书 集 科普 、 专 业 为 一 
体 ， 用 通俗 详尽 的 语言 、 图 表 、 模 型 来 描述 专业 知识 。 

本 书 内 容 涵盖 以 下 学 科 领 域 ， 计 算 机 体系 结构 、 计 算 机 组 成 原理 、 计 算 机 操作 系统 原理 、 计 算 机 图 形 学 、 高 性 
能 计算 机 集群 、 计 算 加 速 、 计 算 机 存储 系统 、 计 算 机 网 络 、 机 器 学 习 等 。 

本 书 共 分 为 12 章 。 第 1 章 介绍 数字 计算 机 的 设计 思路 ， 制 作 一 个 按键 计算 器 ， 在 这 个 过 程 中 逐步 理解 数字 计 
算 机 底层 原理 。 第 2 章 在 第 1 章 的 基础 上 ， 改 造 按键 计算 器 ， 实 现 能 够 按照 编 好 的 程序 自动 计算 ， 并 介绍 对 应 的 处 
理 器 内 部 架构 概念 。 第 3 章 介 绍 电子 计算 机 的 发 展 史 ， 包 括 芯片 制造 等 内 容 。 第 4 章 介绍 流水 线 相关 知识 ， 包 括 流 
水 线 、 分 支 预测 、 乱 序 执行 、 超 标量 等 内 容 。 第 5 章 介绍 计算 机 程序 架构 ， 理 解 单个 、 多 个 程序 如 何在 处 理 器 上 编 
译 、 链 接 并 最 终 运行 的 过 程 。 第 6 章 介绍 缓存 以 及 多 处 理 器 并 行 执行 系统 的 体系 结构 ， 包 括 互联 架构 、 缓 存 一 致 性 
架构 的 原理 和 实现 。 第 7 章 介绍 计算 机 IO 基本 原理 ， 包 括 PCIE, USB, SAS ZX VO 体系 。 第 8 章 介绍 计算 机 
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7 到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


ры s, 我 们 已 经 将 整个 计算 机 系统 
J 建立 了 一 个 基本 框架 ， 大 家 目前 应 该 已 经 可 以 
深刻 理解 CPU 是 怎样 运行 的 (第 1、2 章 ) ， 数 百 亿 晶 
体 管 组 成 的 复杂 电路 是 如 何 制造 出 来 的 (第 3 章 〉， 
CPU 内 部 是 如 何 更 加 优化 地 执行 代码 的 〈 第 4 章 ) ， 
代码 是 怎么 编写 并 被 编译 成 机 器 码 的 ， 以 及 程序 之 间 
是 如 何 形成 各 种 层级 的 (第 5 章 ) ， 多 核心 多 处 理 器 
是 如 何 运行 的 (第 6 章 ) ， 各 种 外 部 IO 设备 是 如 何 连 
接 到 系统 中 并 工作 的 (第 7 章 ) ， 计 算 机 是 如 何 处 理 
声音 和 图 像 的 (第 8 章 ) ， 超 级 计算 到 底 是 怎么 计算 
的 (第 9 章 ) 。 

现在 是 时 候 将 所 有 这 些 事物 统一 地 管理 、 使 用 起 
来 了 。 在 第 5 章 最 后 部 分 ， 曾 提 及 操作 系统 的 概念 ， 
计算 机 需要 有 一 个 操作 系统 来 管理 底层 资源 ， 这 是 程 
序 之 间 分 工 导 致 的 必然 结果 ， 建 议 读者 在 阅读 本 章 之 
前 ， 重 新 回顾 一 下 第 5 章 的 最 后 部 分 。 

如 果 说 CPU 是 一 个 舞台 ， 程 序 是 利用 舞台 表演 的 
人 ， 那 么 操作 系统 就 是 舞台 背后 的 后 勤 工 作 者 们 。 这 
个 后 勒 团队 需要 提供 : 如 何 发 现 各 种 外 部 设备 以 及 驱 
动 装载 过 程 的 管理 、Loader/ 人 机 交互 界面 CLI/GUI、 
市 面 上 主流 外 部 设备 的 驱动 程序 、 虚 拟 分 页 内 存 分 配 
和 管理 、 文 件 系统 、 多 线程 轮流 执行 和 调度 管理 、 为 
程序 之 间 相 互通 信 提 供 支撑 、 响 应 各 种 中 断 的 中 断 服 
务 程序 ， 以 及 上 面 所 有 这 些 程序 对 应 的 数据 结构 ; 用 
于 封装 网 络 包 的 网 络 协议 栈 ， 比 如 TCP/IP 等 ; 用 于 
封装 存储 IO 指令 的 存储 协议 栈 ， 比 如 SCSI 和 NVMe 
等 ， 供 用 户 态 程序 执行 系统 调用 时 的 接口 函数 ， 以 及 
一 些 内 置 的 方便 用 户 管理 整个 系统 的 小 程序 ， 比 如 计 
算 器 、 媒 体 播放 器 、 压 缩 解 压缩 、 字 处 理 、 文 件 浏览 
管理 器 、 网 页 浏览 器 等 ， 当 然 ， 这 些小 程序 都 属于 用 
户 态 程序 ， 可 以 将 它们 删 掉 ， 而 用 自己 喜欢 的 程序 替 
换 掉 ， 最 后 ， 还 需要 提供 用 户 认证 、 多 用 户 等 安全 
功能 。 

程序 员 期 待 着 设计 良好 的 操作 系统 ， 因 为 它 可 以 
更 加 方便 地 利用 OS 提 供 的 系统 调用 来 获取 各 种 服务 ， 
而 不 用 自己 去 自 底 向 上 地 实现 全 套 程序 。 


10.1 内存 布局 与 管理 


我 们 在 第 5 章 中 大 致 介绍 了 一 下 内 存 管理 方面 的 
基本 思想 ， 也 就 是 采用 虚拟 地 址 空间 的 方式 ， 以 一 个 
Page〔 通 常 定 为 4&B) 为 粒度 ， 将 虚拟 地 址 空间 中 的 


虚拟 页 映射 到 物理 地 址 空间 的 物理 页 中 去 ， 让 程序 存 
在 于 一 个 由 多 个 虚拟 页 连续 拼接 起 来 的 虚拟 地 址 空间 
中 。 本 节 我 们 就 来 详细 介绍 一 下 内 存 管理 模块 。 


10.1.1 实 模式 与 保护 模式 


如 图 10-1 (а) 所 示 的 场景 为 一 个 预先 被 载 入 内 存 
的 操作 系统 ， 其 被 放置 到 物理 内 存 的 最 底 端 处 ， 物 理 
内 存 其 余部 分 留 给 用 户 程序 使 用 。 操 作 系统 使 用 内 置 
的 Loader 程 序 载 入 用 户 程序 的 可 执行 文件 ， 对 其 进行 
动态 链接 、 地 址 修正 和 重 定位 等 操作 之 后 ， 将 其 载 入 
到 用 户 内 存 区 执行 。 如 图 10-1 (b) 所 示 的 场景 为 直 
接 将 操作 系统 固化 到 BIOS ROM 中 ，CPU 直 接 从 ROM 
芯片 中 读 取 代码 执行 。BIOS 本 身 其 实 就 是 一 个 极其 
简化 的 操作 系统 。 有 些 嵌 入 式 系统 比如 电动 玩具 机 器 
人 等 或 许 会 使 用 这 种 方式 ， 因 为 ROM 相 比 RAM 要 廉 
价 ， 虽 然 读 取 速度 并 不 如 RAM， 但 是 对 于 这 些 系统 而 
言 已 经 足够 ， 同 时 由 于 这 些 嵌 入 式 系统 都 是 专用 的 
定 场景 ， 其 硬件 规格 、 连 接 方式 等 都 是 固定 的 ， 不 需 
要 做 到 灵活 适 配 ， 所 以 直接 使 用 BIOS 充 当 操作 系统 即 
可 。 如 图 10-1 (с) 所 示 的 场景 为 同时 具有 位 于 ROM 
中 的 BIOS 和 位 于 RAM 中 的 操作 系统 ， 该 场景 适用 于 一 
些 需 要 灵活 配置 、 更 加 通用 的 场景 ， 比 如 个 人 计算 机 ， 
BIOS ROM 的 容量 和 速度 不 足以 支持 拥有 较 强 功能 和 灵 
活性 的 PC 操作 系统 ， 所 以 BIOS 内 部 的 极 简 系 统 仅 供 在 
启动 计算 机 初期 使 用 ， 包 括 准备 好 中 断 向 量 表 、 设 备 信 
息 描述 表 、 加 载 对 应 设备 的 驱动 驻 留 到 内 存 等 步骤 ， 
然后 通过 读 取 硬 盘 的 0 扇 区 引导 记录 ， 读 出 操作 系统 的 
bootloader 程 序 执行 ， 由 后 者 负责 将 位 于 硬盘 上 的 操作 系 
统 代码 和 数据 一 步 步 加 载 到 内 存 然后 最 终 执行 操作 系统 
相关 的 初始 化 准备 程序 准备 好 操作 系统 自身 使 用 的 大 量 
数据 结构 ， 最 后 整个 操作 系统 被 载 入 RAM 的 低 端 地 址 
区 域 驻 留 ， 并 执行 Loader 程 序 ， 提 供 GUI 或 者 CLI 与 操作 
员 交 互 ， 从 而 加 载 其 他 用 户 程序 执行 。 操 作 系统 可 以 完 
全 不 再 依赖 BIOS， 也 可 以 选择 仍然 调用 BIOS 提 供 的 一 
些 驱动 程序 或 者 服务 函数 。 为 了 兼容 性 和 灵活 性 方面 的 
考虑 ， 现 代 的 PC 操作 系统 普遍 都 依赖 BIOS， 这 样 无 论 
底层 硬件 规格 有 何 变化 ， 操 作 系统 都 不 需要 重新 设计 ， 
只 需要 改变 BIOS 的 设计 即 可 。 

DOS 操 作 系统 就 符合 上 述 的 图 10-1 (с) 场景 。 
三 个 场景 都 只 能 运行 单 进程 ， 无 法 做 到 多 进程 同时 执 
行 ， 因 为 对 应 的 OS/BIOS 并 没有 将 RAM 进 行 分 割 ， 所 
以 只 能 承载 一 个 用 户 程序 执行 ， 该 程序 退出 后 返回 到 


操作 系统 的 Loader 程 序 GUICLI， 操 作 员 可 以 启动 其 

他 用 户 程序 继续 执行 。 所 以 DOS 是 一 个 单 任务 操作 系 

统 。 另 外 ，DOS 操 作 系统 下 的 程序 可 以 访问 整个 物理 

地 址 空间 的 任意 位 置 ， 因 为 DOS 并 没有 去 限制 程序 能 
访问 的 范围 。 
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(а) (b) (c) 
图 10-1 早期 操作 系统 的 内 存 分 布 方式 


这 里 禁不住 要 问 了 ， 所 谓 “DOS 没 有 限制 程序 的 
访 存 范围 ”， 这 意思 难道 暗 指 DOS 是 可 以 去 限制 的 ? 
怎么 限制 ? 当 操 作 系统 的 Loader 程 序 让 CPU 跳 转 到 用 
户 程序 运行 之 后 ， 整 个 CPU 就 是 在 运行 用 户 程序 了 ， 
CPU 此 时 完全 受到 用 户 程序 代码 的 控制 ， 让 它 走 东 绝 
不 往 西 ， 此 时 操作 系统 代码 只 是 静 静 地 待 在 内 存 里 起 
不 到 任何 作用 ， 此 时 只 有 靠 CPU 来 检查 和 防止 越界 。 要 
想 实 现 这 个 功能 ， 必 须 将 当前 执行 的 代码 可 访问 的 地 
址 范围 限制 在 某 个 区 域 中 ， 比 如 从 地 址 1024 开 始 的 长 度 
2048B 的 这 2KB 区 域 中 。 为 了 支持 这 个 功能 ，CPU 必 须 
提供 至 少 两 个 寄存 器 ， 一 个 用 于 存放 该 区 域 的 基地 址 ， 
也 就 是 上 述 的 地 址 1024， 另 一 个 用 于 存放 长 度 ， 也 就 是 
上 述 的 2048。 在 操作 系统 Loader 程 序 跳 转 到 用 户 程序 执 
行 之 前 ， 必 须 使 用 对 应 的 机 器 指令 来 更 新 这 两 个 寄存 
器 ， 告 诉 CPU: “兄弟 ， 后 续 任何 代码 只 能 在 这 个 区 域 
内 执行 ， 一 旦 越界 你 就 报 异常 ， 反 过 来 执行 我 提供 的 
异常 服务 程序 ”， 然 后 再 跳 转 到 用 户 程序 执行 ， 此 时 
用 户 程序 就 被 框 住 了 。 然 而 ， 这 一 招 只 能 防 君 子 ， 却 
防 不 了 小 人 。 程 序 REREAD ЖАН 
的 ， 程 序 是 不 是 也 可 以 用 对 应 的 机 器 指令 来 更 新 这 两 个 
寄存 器 呢 ? 比如 将 基地 址 更 新 为 0， 长 度 更 新 为 1GB， 
从 而 逃脱 限制 ? 这 就 相当 于 马路 上 有 个 栏杆 ， 守 规矩 
的 司机 碰 到 栏杆 就 会 避让 ， 但 是 不 守 规 矩 的 可 以 下 车 把 
栏杆 往 边 上 移动 一 下 然后 说 : “你 看 ， 我 没 违规 啊 ” 

设计 者 早 就 考虑 到 这 个 问题 了 ，CPU 的 指令 集中 
有 一 些 属于 特权 指令 ， 只 有 操作 系统 的 代码 可 以 执行 
特权 指令 。 任 何尝 试 执行 特权 指令 的 用 户 程序 ，CPU 
会 直接 中 断 程序 的 运行 ， 跳 转 到 异常 服务 程序 执行 ， 
后 者 直接 把 该 程序 终止 掉 ， 并 弹出 窗口 或 者 文字 提 
示 “ 刚 才 这 个 程序 不 老实 想 搞 事 情 ， 被 终止 了 ”， 
当然 ， 说 得 好 听 一 点 儿 是 “非法 操作 : 尝试 访问 了 
XXX 地 址 ”。 更 新 基地 址 和 长 度 寄存 器 的 指令 ， 是 
特权 指令 ， 用 户 程序 如 果 执 行 特权 指令 ，CPU 就 会 自 
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动 报告 异常 。 所 以 ， 这 一 招 下 去 ， 相 当 于 接 下 来 执行 
的 程序 再 也 无 法 逃脱 出 这 个 框框 了 。 
提示 > 
x86 处 理 器 的 特权 指令 有 : LGDT 一 Load 
GDT register; LLDT — Load LDT register; 
LTR 一 Load Task Register; LIDT 一 Load IDT 
register; MOV (Control Registers) 一 Load and 
store control registers; LMSW — Load Machine 
Status Word; CLTS — Clear task-switched flag in 
register CRO; MOV (debug registers) — Load and 
store debug registers; INVD — Invalidate cache, 
without writeback; WBINVD — Invalidate cache, 
with writeback; INVLPG —Invalidate TLB entry; 
НІЛ-- Halt processor; RDMSR — Read Model- 
Specific Registers; WRMSR 一 Write Model-Specific 
Registers; RDPMC — Read Performance-Monitoring 
Counter; RDTSC — Read Time-Stamp Counter; 


用 户 程序 执行 完 退 出 后 ， 返 回 到 操作 系统 代码 
执行 ， 此 时 必须 有 某 种 机 制 让 CPU 从 之 前 的 禁止 执行 
特权 指令 ， 切 换 到 可 以 执行 特权 指令 。 而 操作 系统 决 
定 执行 某 个 用 户 进程 的 代码 前 ， 也 必须 先 禁止 特权 指 
令 的 执行 权 。 对 于 Intel 的 CPU 体系 ， 人 们 将 用 户 程序 
运行 时 所 处 的 权限 级 别称 为 Ring3， 而 将 操作 系统 程 
序 的 运行 权限 级 别称 为 Ring0， 若 CPU 处 于 Ring0 级 别 
下 ， 则 其 可 以 不 受 限制 地 执行 任何 指令 。 程 序 主动 退 
出 时 ,会 调用 指定 的 函数 ， 比 如 exit0， 该 函数 由 操作 
系统 提供 ， 该 函数 内 部 会 执行 系统 调用 ， 也 就 是 第 5 
章 中 5.5.6.4 节 所 述 的 Int 80 软 中 断 指令 ，CPU 执 行 该 指 
令 后 ， 会 将 权限 级 别 切换 到 Ring0， 也 就 是 进行 权限 
提升 操作 ， 有 具体 的 提升 详 见 10.3 节 。 

程序 如 果 蜡 常 退 出 ， 比 如 遇 到 错误 或 者 尝试 越 
界 ， 此 时 CPU 会 跳 转 到 异常 服务 程序 中 执行 ， 这 也 属 
于 一 种 中 断 。 记 住 ， 只 要 是 中 断 ， 不 管 是 程序 主动 发 
起 的 Int 软 中 断 指令 导致 的 中 断 还 是 CPU 自行 中 断 ， 
或 是 外 部 设备 用 电信 和 号 硬 中 断 强行 中 断 CPU， 中 断 之 
后 CPU 查询 中 断 向 量 表 取 出 对 应 的 中 断 向 量 入 口 信息 
后 ， 会 根据 对 应 的 信息 自动 将 权限 级 别提 升 到 Ring0 
(具体 过 程 后 文 介绍 ) ， 然 后 跳 转 到 对 应 的 中 断 服 务 
程序 执行 。 那 你 禁不住 要 问 了 ， 如 果 某 个 程序 把 中 断 
向 量 表 给 改 了 ， 替 换 成 自己 的 黑客 程序 ， 当 再 中 断 时 
就 会 运行 该 程序 ， 此 时 该 程序 在 Ring0 权 限 ， 所 以 可 
以 做 任何 事情 ， 不 就 完成 侵入 了 么 ? 是 的 ， 但 是 一 个 
用 户 态 程序 在 操作 系统 没有 漏洞 的 前 提 下 ， 是 无 论 如 
何 也 改 不 了 中 断 向 量 表 的 ， 因 为 操作 系统 会 给 你 限定 
访 存 范 围 ， 即 使 程序 知道 了 中 断 向 量 表 在 哪个 地 址 
上 ， 也 只 能 眼看 着 却 碰 不 到 。 程 序 能 和 否 跟 CPU 走 个 后 
门 串通 ? 不 行 ， 除 非 CPU 内 部 真 的 有 某 种 奇 范 bug。 

上 述 使 用 访 存 范围 寄存 器 + 权限 控制 来 实现 将 


人大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


用 户 程序 关 在 笼子 里 运行 的 做 法 ， 被 称 为 保护 模式 
(Protection Mode) 。 而 不 限制 程序 的 访 存 范围 则 被 
称 为 实 模式 (Real Mode) 。DOS 是 一 个 实 模式 下 的 
操作 系统 ， 也 就 是 说 ， 它 并 没有 使 用 CPU 提供 的 访 存 
范围 寄存 器 以 及 权限 级 别 功能 ， 而 且 DOS 刚 问世 时 是 
运行 在 Intel 8080 CPU 上 的 ， 该 CPU 不 支持 保护 模式 ， 
一 直到 1982 年 的 Intel 80286 CPU 才 开 始 支持 保护 模 
式 ， 但 是 微软 是 在 8 年 后 的 1990 年 推出 的 第 一 个 支持 
保护 模式 的 Wndows 版 本 一 一 Windows 3.0， 然 而 其 并 
不 支持 80286 CPU， 直 接 使 用 了 80386。 

你 自然 会 想到 ， 如 果 CPU 和 操作 系统 都 支持 了 保 
护 模 式 ， 就 可 以 支持 多 任务 同时 安全 地 被 执行 了 ， 只 
要 给 每 个 进程 设置 并 记录 对 应 的 访 存 范围 ， 让 这 多 个 
访 存 范围 位 于 内 存 的 不 同 物理 区 域 ， 不 重 登 ， 支 持 这 
种 模式 的 操作 系统 就 属于 多 任务 操作 系统 。 在 运行 某 
个 任务 之 前 ， 将 该 任务 被 分 配 的 访 存 范围 基地 址 和 长 
度 更 新 到 对 应 的 寄存 器 ， 然 后 根据 该 基地 址 对 程序 中 
的 绝对 地 址 引用 进行 地 址 修正 (基地 址 重 定向 ， 见 第 5 
章 ) ， 然 后 跳 转 过 去 直接 执行 即 可 。 当 决定 切换 到 其 
他 任务 执行 时 ， 将 当前 任务 所 运行 到 的 位 置 ( 也 就 是 
PC 指针 ) 以 及 各 种 栈 指针 寄存 器 等 保存 下 来 到 一 张 表 
中 ， 然 后 载 入 其 他 任务 的 PC、 栈 指针 等 寄存 器 以 及 访 
存 范围 寄存 器 ， 跳 转 执行 即 可 。 这 就 可 以 实现 多 任务 
轮流 执行 ， 轮 流 的 时 间 间 隔 取决 于 时 钟 中 断 频 度 以 及 
调度 算法 了 ， 这 在 上 文中 略 有 介绍 。 这 种 将 物理 内 存 
分 隔 成 多 个 区 域 的 方式 被 称 为 分 区 式 内 存 管 理 。 


如 果 不 采 用 分 区 机 制 并 不 意味 着 只 能 实现 单 任 
务 ， 也 可 以 通过 其 他 第 办 法 实现 多 任务 。 比 如 ， 当 
决定 暂停 当前 任务 而 切换 到 另 一 个 任务 时 ， 将 该 
任务 占用 的 内 存 以 及 相关 寄存 器 值 全 部 复制 到 硬盘 
上 ， 然 后 载 入 另 一 个 任务 执行 ， 下 次 切换 时 再 将 之 
前 任务 的 内 存 数 据 整体 从 硬盘 上 复制 回 内 存 ， 然 后 
载 入 之 前 保存 的 寄存 器 值 ， 然 后 继续 执行 。 这 种 做 
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法 被 称 为 Swap (XR) 。 其 切换 时 将 会 非常 慢 ， 因 
为 硬盘 很 慢 。 


10.1.2 分 区 式 内 存 管 理 


第 5 章 中 介绍 过 的 分 页 机 制 是 在 计算 机 发 展 后 期 才 
被 引入 的 。 在 早期 ， 人 们 并 没有 采用 分 页 的 机 制 ， 而 是 
采用 了 更 加 朴素 的 分 区 机 制 。 说 它 朴素 是 因为 更 加 直观 
和 简洁 ， 上 文中 也 曾 思考 过 ， 直 接 把 内 存 地 址 空间 分 隔 
成 多 个 区 域 ( 分 区 ) ， 每 个 进程 占用 一 个 区 域 ， 这 便 是 
一 种 朴素 直观 ， 很 容易 就 可 以 想到 的 方法 。 

如 图 10-2 所 示 ， 操 作 系统 内 存 管 理 程序 维护 了 一 
张 用 于 记录 内 存 分 区 的 内 存 分 区 记录 表 ， 在 运行 某 个 
程序 之 前 ， 操 作 系统 的 Loader 程 序 分 析 该 用 户 程序 的 
初始 内 存 耗 费 情况 ， 然 后 为 其 分 配对 应 大 小 的 内 存 分 
区 ， 做 地 址 修正 后 开始 运行 。 程 序 退出 后 ， 该 分 区 会 
被 标记 为 空闲 。 当 多 个 程序 轮流 运行 之 后 ， 难 免 产 生 
内 存 分 区 碎片 ， 如 果 某 个 程序 耗费 的 内 存 大 于 任何 一 
个 空闲 分 区 容量 ， 则 无 法 运行 ， 所 以 操作 系统 内 存 管 
理 程序 需要 实现 相应 的 空闲 分 区 合并 机 制 ， 相 当 于 文 
件 系统 的 碎片 整理 功能 ， 只 不 过 文件 系统 就 算 不 整理 
碎片 也 能 继续 存 入 文件 ， 只 要 总 空闲 容量 足够 即 可 ， 
而 内 存 要 求 必须 是 连续 的 才能 容纳 一 个 程序 ， 这 也 是 
为 何 后 来 人 们 改 为 采用 分 页 机 制 管理 内 存 的 最 主要 的 
原因 。 图 中 右 侧 可 以 看 到 一 个 用 于 追踪 各 个 进程 状 
态 、 记 录 之 前 执行 过 但 是 被 从 CPU 印 下 或 者 说 从 CPU 
被 调度 下 来 的 进程 的 各 种 运行 现场 信息 ， 该 表 由 操作 
系统 的 进程 调度 程序 来 维护 。 其 中 ， 显 示 进 程 E 将 要 
被 重新 调度 到 CPU 上 执行 ， 其 之 前 被 进程 调度 程序 从 
#1 分 区 整体 被 swap 到 了 硬盘 上 ， 进 程 调度 程序 决定 重 
新 继续 运行 E 进 程 ， 所 以 将 其 数据 再 Swap 回 约 分 区 ， 
但 是 尚未 开始 执行 ， 因 为 目前 该 CPU 上 的 4 个 核心 已 
经 被 A、B、C、D4 个 进程 占用 了 ， 所 以 E 进 程 被 置 为 
Ready 状 态 。 而 F 和 G 进 程 也 被 Swap 到 了 硬盘 上 ,但 是 
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图 10-2 ”朴素 的 内 存 分 区 管理 方式 


由 于 其 对 内 存 耗费 比较 大 ， 而 此 时 只 有 雪 分 区 有 足够 
容量 ， 同 时 内 存 管理 程序 还 没 来 得 及 对 内 存 空 闲 碎片 
进行 合并 ， 所 以 F 和 G 只 能 等 待 E 运 行 一 段 时 间 之 后 被 
调度 执行 。 

这 种 分 区 方式 有 个 问题 就 是 程序 运行 之 后 所 动 
态 申 请 的 内 存 ， 也 就 是 Heap СЕ) ， 只 能 被 限定 在 
其 所 被 分 配 的 分 区 之 内 ， 无 法 被 分 配 到 分 区 外 面 ， 
因为 CPU 会 根据 分 区 长 度 寄存 器 来 限定 该 程序 访 存 范 
围 。 但 是 ，Loader 程 序 一 开始 似乎 并 不 会 知道 该 用 户 
程序 会 申请 多 少 内 存 〈 比 如 程序 根据 某 些 判断 条 件 来 
决定 申请 多 少 内 存 ， 比 如 用 户 每 按 一 次 某 个 键 就 申请 
一 部 分 内 存 ， 这 根本 无 法 预先 判断 ) ， 所 以 Loader 只 
会 根据 该 程序 的 静态 内 存 耗费 容量 来 分 配 分 区 ， 那 么 
该 程序 将 无 法 动态 要 求 新 分 配 内 存 。 解 决 办 法 是 要 
么 Loader 为 每 个 程序 在 其 分 区 内 预 留 一 部 分 堆 内 存 空 
间 ， 要 么 就 需要 改变 CPU 的 寄存 器 设置 ， 新 增 一 个 用 
于 追踪 当前 进程 可 访问 的 堆 内 存 空间 的 基地 址 和 长 度 
寄存 器 ， 并 且 每 次 为 该 进程 分 配 了 堆 内 存 之 后 都 要 更 
新 这 两 个 寄存 器 ， 从 而 让 CPU 放 开 该 进程 对 堆 空间 的 
访问 。 

历史 上 IBM System/360 Operating System, 
UNIVAC 1108, Burroughs Corporation B5500, PDP-10 
以 及 GE-635 等 计算 机 系统 的 操作 系统 使 用 了 分 区 式 内 
存 管理 方式 。 不 过 由 于 分 区 式 管理 在 进程 数量 较 少 、 
尺寸 较 少 并 且 比较 均匀 的 时 候 也 算 合理 ， 但 是 随 着 进 
程 数量 猛 增 、 进 程 大 小 不 一 的 时 候 ， 会 带 来 很 大 的 管 
理 开 销 ， 所 以 后 续 该 方式 已 经 无 人 使 用 ， 被 分 页 管理 
方式 取代 了 。 


10.1.3 ”8086 分 段 + 实 模式 


在 第 5 章 中 的 图 5-68 中 给 出 了 一 个 程序 文件 的 结 
构 示 意图 ， 程 序 文件 内 部 是 分 段 的 ， 包 含 代码 段 、 数 
据 段 以 及 其 他 一 些 没 有 介绍 的 段 ， 分 段 的 一 个 重要 原 
因 是 为 了 让 缓存 命中 率 足 够 高 ， 因 为 缓存 对 空间 和 时 
间 局 部 性 较 高 的 场景 才 具 有 更 高 命中 率 ， 所 以 将 程序 
中 相似 、 相 邻 的 信息 都 集中 在 一 起 ， 便 形成 了 段 。 

分 段 式 内 存 管理 的 初 囊 ， 就 是 将 内 存 的 分 配 与 
程序 中 的 这 些 段 联系 起 来 ， 每 个 段 分 配 一 块 内 存 区 
域 ， 对 应 的 内 存 区 域 也 称 为 段 。Intel 最 早 在 其 8086 
CPU 上 使 用 了 分 段 机 制 。8086 CPU 内 部 设置 了 对 应 
的 段 基地 址 寄存 器 (都 是 16 位 )， 包 括 CS (Code 
Segment) . DS (Data Segment) 、SS (Stack 
Segment) 和 ES (Extension Segment) ， 此 外 还 有 FS 
(Flag Segment) 和 GS (Global Segment) 段 基地 址 
寄存 器 。 但 是 ， 其 没有 提供 长 度 寄 存 器 ， 这 一 点 导 
致 8086 无 法 实现 保护 模式 ， 也 就 意味 着 ， 程 序 可 以 
访问 任意 内 存 地 址 。 但 是 即便 如 此 ， 也 能 够 提升 内 
存 的 利用 率 ， 协 助 实现 多 任务 ， 比 如 一 个 程序 可 以 
按照 段 为 粒度 被 切 分 放置 在 内 存 的 不 同 区 域 ， 不 必 
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连续 ， 多 个 不 同 进程 对 应 的 程序 可 以 被 切 分 为 段 ， 
见缝插针 ， 如 图 10-3 所 示 。 


图 10-3 ”分 段 示意 图 


这 样 ， 系 统 最 大 可 以 支持 2”=65536 个 段 。 操 作 系 
统 的 Loader 程 序 为 用 户 程序 分 配 好 对 应 的 段 之 后 ， 会 
将 各 自 段 基地 址 采用 对 应 指令 比如 lds (Load DS) 、 
lss 等 载 入 相应 寄存 器 〈 没 有 lds 指 令 ， 更 改 DS 寄 存 器 
需要 使 用 Jmp 类 指令 ) ， 在 做 完 另外 一 些 准备 以 及 地 
址 重 定位 修正 之 后 ， 便 跳 转 到 该 程序 入 口 地 址 执行 。 
在 后 续 的 执行 过 程 中 ，CPU 会 自动 将 下 一 条 指令 的 PC 
指针 与 CS 寄存 器 保存 的 基地 址 相 加 ， 将 得 到 的 结果 作 
为 最 终 访 存 地 址 ， 因 为 程序 的 代码 段 被 整体 搬移 到 了 
以 CS 基地 址 开始 的 段 中 ， 所 以 PC 指针 就 成 为 基于 CS 
段 的 Offset 偏 移 量 而 存在 ， 如 果 PC=4， 则 此 时 需要 从 
物理 地 址 的 CS+4 处 取 回 代码 执行 。 

对 于 访 存 指令 ，CPU 会 自动 将 指令 中 给 出 的 地 址 
与 DS 寄存 器 中 的 基地 址 相 加 得 出 最 终 的 物理 地 址 来 
访 存 ， 比 如 对 于 8086 CPU 的 一 条 汇编 指令 : mov ax 
[si]， 其 含义 为 将 si 寄存 器 中 存储 的 值 作为 指针 来 寻 址 
内 存 ， 将 取 回 的 数据 写 入 ax 寄存 器 ， 该 指令 语法 与 冬 
瓜 哥 在 第 2 章 中 给 出 的 指令 集 描述 方式 是 不 同 的 ， 但 
是 本 质 都 相同 ， 也 希望 大 家 不 要 被 冬瓜 哥 的 自 创 指令 
集 所 迷惑 。CPU 执 行 该 指令 时 ， 会 用 DS 中 的 基地 址 
+si 中 的 地 址 ， 用 得 出 的 地 址 来 访 存 。 

那么 ES 寄存 器 又 是 干什么 用 的 呢 ? 如 果 指 令 为 
mov ах [di]， 则 CPU 会 默认 用 ES 中 的 基地 址 +di 中 的 值 
作为 最 终 访 存 地 址 。ES 其 名 称 为 扩展 段 ， 意 思 就 是 这 
个 ， 也 就 是 提供 除了 DS 段 之 外 的 额外 的 数据 存储 空 
间 。 在 基于 8086 CPU 的 MS-DOS 操 作 系 统 下 ， 提 供 了 
malloc 和 farmalloc 函 数 ， 供 程序 调用 以 分 配 内 存 ， 其 
中 ，malloc 函 数 只 返回 一 个 offset， 说 明 DOS 为 当前 程 
序 分 配 的 内 存 就 处 于 当前 DS 寄 存 器 中 的 基地 址 所 表 
示 的 段 中 ， 所 以 无 须 返 回 段 基地 址 ， 但 是 farmalloc 函 
数 会 返回 一 个 新 分 配 的 段 基地 址 和 一 个 offset， 此 时 程 
序 可 以 将 这 个 新 的 段 地 址 写 到 DS 中 ， 此 时 CPU 就 会 切 
换 到 以 这 个 新 的 段 为 基准 来 寻 址 后 续 访 存 动作 ， 但 是 
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有 时 候 程序 既 要 使 用 之 前 DS 段 的 内 容 ， 又 要 使 用 新 
分 配 段 中 的 内 容 ，ES 额 外 的 段 基地 址 就 为 此 而 生 ， 程 
序 可 以 将 新 分 配 的 段 基 地 址 写 入 ES 寄存 器 ， 访 存 时 使 
用 di 寄存 器 来 盛 放 offset，CPU 会 自动 以 ES 基地 址 与 其 
相 加 ， 从 而 访 存 。 所 以 ，CPU 被 设计 为 si 寄存 器 与 DS 
默认 对 应 ，di 寄 存 器 与 ES 默认 对 应 。 当 然 ， 也 可 以 用 
segment: offset 的 形式 强行 指定 ， 比 如 : шоу ax es:[si] 
或 者 mov ах ds:[di]， 那 CPU 就 会 用 指定 的 基地 址 来 与 
offset 相 加 。 

由 于 程序 在 运行 过 程 中 可 以 擅自 改变 各 个 段 基地 址 
寄存 器 中 的 值 ， 比 如 用 户 程序 可 以 执行 lds 或 者 mov 指 令 
来 改变 DS 寄 存 器 值 ， 由 于 8086 CPU 并 没有 实现 保护 模 
式 ， 没 有 设置 访 存 范围 ， 所 以 程序 可 以 肆 无 忌 刁 地 访问 
到 任何 地 址 上 的 数据 ， 正 因 如 此 ， 不 可 靠 的 程序 会 导致 
系统 崩溃 ， 以 及 各 种 病毒 程序 泛滥 。 

由 于 8086 CPU 并 没有 主动 限制 段 的 长 度 ， 所 以 
每 个 段 可 以 是 任意 长 度 ， 当 然 有 个 最 大 值 ， 也 就 是 
64KB。 因 为 offset 的 值 ， 也 就 是 程序 中 给 出 的 访 存 地 
址 的 值 是 16 位 ，2'=64KB。8086 CPU 的 内 部 寄存 器 以 
及 数据 总 线 位 宽 为 16 位 ， 但 是 地 址 总 线 却 有 20 位 ， 这 
样 ， 其 可 寻 址 的 最 大 字 节 数 为 2*B=1MB。 然 而 由 于 
其 内 部 寄存 器 为 16 位 ， 给 不 出 20 位 的 地 址 ， 于 是 8086 
这 样 来 设计 ， 针 对 每 个 段 基地 址 ， 强 行将 其 左 移 4 
位 ， 也 就 是 在 16 位 值 的 尾部 填 上 4 个 0 从 而 变 成 20 位 ， 
比如 原本 某 个 段 的 基地 址 为 2000h， 强 行 左 移 后 会 变 
为 20000h， 然 后 用 该 值 与 代码 中 给 出 的 offset 值 相 加 ， 
比如 20000h+1F60h=21F60h， 用 该 地 址 作为 物理 地 址 
来 访 存 。 但 是 这 样 做 之 后 ， 段 基地 址 的 数量 最 大 依然 
是 64kB 个 ， 但 是 再 加 上 16 位 的 offset 一 起 ， 就 可 以 将 
1MB 的 地 址 空间 全 覆盖 了 。 

8086 汇 编 指令 集中 有 几 种 不 同 的 跳 转 指令 ， 比 
如 短 跳 转 ( 跳 转 距离 在 -128 ~ 1278) 、 近 跳 转 ( 跳 
转 距离 在 -32~32KB ) 以 及 长 跳 转 ( 跳 转 目标 地 址 
与 当前 处 在 不 同 段 中 ) 。 短 跳 转 指令 只 需要 携带 1B 
长 度 的 地 址 即 可 ， 因 为 8 位 足以 描述 256B 的 范围 ; 
近 跳 转 需 要 携带 2B 的 地 址 来 描述 64KB ( 225，2B 为 
16 位 ) 的 距离 范围 。 但 是 短 跳 和 近 跳 都 属于 内 跳 
转 ， 也 就 是 跳 转 目 标 地 址 必须 处 在 当前 的 CS 段 内 部 
某 处 ， 如 果 跨 了 段 ， 必 须 用 长 跳 转 或 者 说 远 跳 转 指 
令 ， 该 指令 会 在 后 台 自 动 将 跳 转 目标 地 址 所 在 的 段 
的 基地 址 导入 到 CS 寄存 器 中 ， 然 后 从 目标 地 址 开始 
执行 。 


如 果 CS 段 基地 址 为 FFFFh，offset 为 FFFFh， 那 么 
前 者 左 移 4 位 之 后 为 FFFF0h， 与 后 者 相 加 =10FFEFh， 
由 于 8086 的 CPU 地 址 线 只 有 20 位 ，10FFEFh 中 的 最 高 
的 4 位 : 0001， 会 溢出 而 被 丢弃 ， 只 保留 OFFEFh 这 20 
位 ， 而 地 址 OFFEFh 表 示 的 是 64KB-16B 字 节 处 。 其 


实 ，F800h+8000h=100000h， 就 已 经 溢出 了 ， 实 际 送 
到 地 址 线 上 的 信号 为 00000h， 也 就 是 访问 1MB 空 间 中 
的 第 一 个 字 节 。 所 以 ， 程 序 以 及 编译 器 必须 熟知 这 一 
点 ， 否 则 会 得 到 错误 的 结果 ， 或 者 误 覆 盖 数 据 导 致 衣 
演 。 这 个 不 能 完全 算 作 bug 的 问题 ， 引 发 了 一 段 奇 醇 
历史 事件 。 
Еж» 

正 犹 如 没有 段子 手 编 不 出 来 段子 的 事件 ， 
也 永远 不 要 低估 程序 员 们 的 调皮 。 在 当时 ， 有 
些 程序 竟然 利用 了 这 个 “特性 ”来 实现 一 些 特 
殊 效 果 ， 比 如 提升 性 能 。 他 们 设置 了 一 个 段 : 
F800:0000~F800:FFFF， 显 然 ， 这 个 段 的 前 半 部 
分 ， 也 就 是 FE800:0000~F800:7FFF 区 间 ， 也 就 是 
物理 地 址 0x000F8000 ~ 0x000FFFFF 区 间 ， 其 位 于 
1MB 的 未 尾 处 ， 程 序 员 将 自己 的 程序 代码 放置 到 这 
+; 另 一 半 ，F800:8000 ~F800:FFFF 区 间 ， 溢 出 折 
回 到 地 址 0 处 继续 开始 ， 也 就 是 对 应 了 物理 地 址 的 
0x00000000 ~ 0x00007FFF 区 间 ， 而 这 里 恰好 存放 的 
是 操作 系统 维护 的 一 些 关键 数据 ， 其 中 有 一 些 是 IO 
缓冲 区 ， 比 如 键盘 缓冲 区 等 ， 这 样 ， 程 序 可 以 在 不 
切换 CS 段 基 地 址 的 情况 下 ， 既 运行 自己 的 代码 ， 又 
访问 这 些 缓冲 区 ， 比 如 将 操作 键盘 的 程序 放置 在 前 
半 部 分 ， 这 样 就 避免 了 段 基 地 址 寄存 器 切换 ， 可 以 
节省 指令 ， 提 升 性 能 。 要 知道 ， 在 当时 ，“ 免 费 ” 
得 到 了 可 榨取 哪怕 一 丁点 儿 性 能 的 方法 ， 都 能 让 程 
序 员 满足 很 长 时 间 。 就 连 当 时 的 DOS 操 作 系统 都 
使 用 了 该 “特性 ”来 做 一 些 事情 。 然 而 ， 程 序 员 们 
沾沾自喜 没 多 久 ，Intel 就 发 布 了 80286 CPU, ЊЕ 
备 24 根 地 址 线 ， 这 下 好 了 ， 之 前 的 地 址 不 会 再 溢出 
了 ， 因 为 第 21 根 信号 线 ( 如 果 从 0 开始 算 的 话 应 该 
Jt Address #20 号 地 址 线 ， 简 称 A20 ) 终于 存在 了 。 

80286 号 称 兼容 8086 程 序 ， 但是， 其 设计 者 或 
者 是 真 的 不 知道 程序 员 们 之 前 所 做 的 ， 或 者 是 忘记 
了 ， 了 既然 兼容 8086， 那 么 就 应 该 在 兼容 模式 下 自动 
将 A20 信 号 线 强制 为 0， 但 是 设计 者 却 并 没有 实现 
这 个 机 制 。 这 样 ， 当 之 前 的 8086 上 的 程序 真 的 采用 
溢出 的 地 址 来 访 存 时 ， 却 真 的 得 到 了 “正确 ”的 地 
址 ， 而 不 是 溢出 后 折 回 到 0~ ( 64K-16 ) B 区 间 的 地 
址 ， 结 果 这 些 之 前 利用 这 个 缺陷 获得 收益 的 程序 却 
运行 异常 ， 开 始 声讨 Intel 80286 CPU 出 现 了 bug。 这 
应 该 算是 修复 之 前 的 “bug” 而 引出 了 新 “bug”? 
到 底 谁 才 是 bug 已 经 说 不 清 了 ，Intel 当 时 一 定 播 着 
脸 委 层 到 “我 …… 我 哪 知道 你 们 这 帮 奇 范 之 前 竟然 
这 么 玩 啊 ! ”， 总 之 ， 让 人 哭笑不得 。 奇 范 还 需 奇 
范 治 ， 当 时 PC 大 佬 ITBM 放 了 个 奇 范 招 解决 了 这 个 问 
题 。 如 图 10-4 所 示 ， 其 在 主板 上 将 80286 CPU 的 A20 
地 址 信号 接 入 一 个 与 门 的 一 个 输入 端 ， 另 一 个 输入 
端 与 当时 广 为 采 用 的 Intel 8042 键 盘 控制 器 的 某 个 闲 
置信 号 相 接 ， 通 过 写 入 8042 控 制 器 对 应 的 寄存 器 可 


以 控制 该 信号 输出 0 还 是 1， 当 8042 控 制 器 的 该 信号 
输出 1 时 ， 与 门 的 输入 将 与 A20 原 生 输 出 一 致 ， 但 是 
当 8042 控 制 器 的 信号 输出 为 0 时 ，A20 Gate 输 出 总 
为 0， 也 就 可 以 模拟 8086 的 20 根 地 址 线 效 果 了 。 将 
这 个 过 程 做 成 一 个 选项 ， 在 BIOS 阶 段 供用 户 配置 即 
可 。 这 个 做 法 流传 开 来 ， 一 直到 Intel 赛 扬 CPU 时 代 
的 PC 上 还 曾 见 过 ， 不 过 后 续 的 PC 基本 上 已 经 不 再 
使 用 8042 来 连接 A20 地 址 线 ， 而 是 采用 其 他 更 便捷 
的 方式 ， 因 为 使 用 8042 来 控制 的 话 ， 要 先 写 寄存 器 
把 键盘 控制 器 禁用 ， 这 样 才 能 清空 其 缓冲 区 内 容 ， 
然后 再 写 寄存 器 下 发 对 应 命令 启用 A20 Gate。 采 用 
更 快 方式 启用 禁用 A20 Gate 的 主板 BIOS 选 项 中 会 
称 之 为 比如 “Fast A20 Gate”， 此 时 主板 会 采用 专 
用 控制 硬件 来 控制 A20 Gate， 并 向 外 暴露 操作 地 址 
0x92， 对 该 地 址 的 第 1 个 位 写 1 即 可 使 能 A20 Gate; 
注意 ，Fast A20 Gate 中 的 “Fast” 并 不 代表 开启 了 
A20 Gate 系 统 就 变 快 了 ， 哈哈， 当年 冬瓜 哥 可 真是 
这 么 认为 的 。 这 世界 似乎 真 不 缺 奇 苑 ， 一 荐 接 一 荐 
的 出 现 ， 挑 过 着 你 的 神经 。 当 然 ，CPU 在 设计 和 演 
进 时 ， 各 种 设计 失误 和 奇 苑 事件 会 持续 发 生 ， 只 不 
过 由 于 当代 的 CPU 和 集成 度 越 来 越 高 ， 这 些 事件 就 逐 
渐 不 为 人 知 了 ， 都 被 掩盖 在 CPU 内 部 了 ， 比 如 通过 
更 新 徽 码 的 方式 来 解决 一 些 bug 等 。 而 随 着 整个 计 
算 机 产业 的 发 展 ， 目 前 人 们 多 数 都 聚焦 在 上 层 的 比 
如 大 数据 、 云 计算 、 人 工 智能 等 领域 去 了 ， 计 算 机 
硬件 和 底层 软件 成 为 宏伟 建筑 的 砖头 和 钢筋 水 泥 ， 
它们 被 埋没 到 了 漂亮 的 外 表 和 豪华 的 室内 装饰 之 
下 ， 再 也 不 被 人 所 看 到 和 关注 ， 甚 至 一 旦 看 到 赶紧 
封装 起 来 ， 成 为 与 上 层 角 色 格 格 不 入 的 存在 。 
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Controller 
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如 图 10-5 所 示 为 8086 体 系 寄存 器 和 段 布 局 示意 


图 ， 大 家 可 以 结合 之 前 的 内 容 具体 体会 一 下 。 
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图 10-5 8086 体 系 寄存 器 和 段 布 局 示意 图 
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8086 对 内 存 的 分 段 管理 模式 可 以 与 exe/elf 可 执 
行文 件 里 的 那些 分 段 概念 匹配 起 来 ，exe 代 码 载 入 
内 存 之 后 ， 可 以 完全 按照 相应 的 布局 来 放置 ， 代 码 
中 的 地 址 也 根据 其 访问 的 区 域 ， 使 用 对 应 的 段 基地 
址 来 做 长 / 远 跳 转 。 然 而 由 硬件 完全 控制 内 存 布 局 
的 做 法 不 灵活 ， 所 以 在 后 来 的 分 页 模式 下 ， 分 段 机 
制 基本 成 了 摆设 ,代码 中 也 不 再 有 所 谓 远 跳 转 的 概 
念 。 虽 然 程 序 依然 遵循 elf/exe 定 义 的 布局 格式 ,但 
是 每 个 区 域 的 描述 和 访问 控制 完全 放 在 了 软件 中 来 


处 理 。 


线性 /逻辑 /物理 地 址 


在 8086 体 系 下 ， 代 码 中 出 现 的 segment: offset 
(如 果 是 代码 段 的 话 则 俗称 CS: IP，IP 就 是 PC 指针 
地 址 Instruction Pointer 的 意思 ) 的 地 址 组 合 〈 或 者 
只 给 出 Offset，CPU 会 默认 使 用 当前 段 寄存 器 中 的 
值 作为 基地 址 ) ， 被 称 为 逻辑 地 址 ，segment 左 移 4 
位 +offset 之 后 的 地 址 被 称 为 线性 地 址 ; 线性 地 址 也 


就 是 最 终 用 于 放置 在 20 位 物理 总 线 上 的 地 址 ， 
其 也 就 是 最 终 的 物理 地 址 。 在 下 文中 会 看 到 ， 


所 以 
当 启 


用 了 带 有 保护 模式 的 分 段 ， 或 者 启用 了 分 页 技术 之 
后 ， 线 性 地 址 还 需要 经 过 一 次 转换 映射 ， 才 被 转换 


成 最 终 的 物理 地 址 。 


总 之 ，8086 的 分 段 的 做 法 本 身 就 比较 奇 范 ， 第 
一 是 比较 乱 ， 比 如 2000h: 1F60h, 2100h: OF60h. 


21F0h: 0060h、21F6h: 0000h, 1F00h: 2F60h、 


数不胜数 ， 这 多 种 segment: offset 组 合 都 可 以 表示 同 
一 个 物理 地 址 : 21F60h。 每 一 个 物理 地 址 都 可 以 有 大 
量 不 同 的 segment: offset 组 合 来 表示 ， 因 为 同一 个 物 
理 地 址 可 以 被 表达 成 两 个 值 之 和 ， 所 以 多 个 段 描述 的 


人 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


Б И (Overlap) 的 。 再 加 上 代码 中 可 以 强 
行 指定 段 基地 址 + 偏 移 量 来 访问 任何 地 址 ， 这 会 让 程 
序 员 疑 惑 。 第 二 是 没有 提供 保护 模式 ， 也 就 是 虽然 分 
了 段 ， 但 是 却 不 禁止 越界 行为 ， 导 致 实现 多 任务 时 基 
本 不 现实 ， 这 就 好 比 上 车 要 系 安全 带 一样 ， 因 为 即便 
你 自己 开 的 慢 但 是 如 果 别 人 不 靠 谱 一 样 会 把 你 撞 废 ， 
而 8086 不 提供 任何 安全 保障 。 于 是 ，Intel 从 80286 
开始 ， 采 用 了 彻底 改进 的 分 段 方式 来 解决 上 述 两 个 
问题 。 


10.1.4 80286 分 段 + 保护 模式 


要 想 实现 保护 模式 ， 必 须 让 不 同 任务 /进程 的 地 
址 区 间 不 发 生 重 营 ， 同 时 还 要 禁止 进程 越界 访问 。 
80286 使 用 下 述 设 计 思 路 来 解决 这 两 个 问题 。 为 了 
保持 对 之 前 程序 的 透明 ， 80286 仍 然 接受 segment; 
offset 模 式 的 寻 址 方式 ， 但 是 ，CPU 并 不 会 向 8086 那 样 
将 segment 左 移 4 位 +offset 然 后 用 这 个 地 址 直接 去 访问 
物理 内 存 ， 而 是 需要 操作 系统 的 内 存 管理 模块 先 在 内 
存 中 设立 一 张 表 ， 并 将 该 表 的 基地 址 告诉 CPU (CPU 
将 其 保存 到 一 个 新 设立 的 专用 基地 址 寄存 器 中 ) ， 
CPU 每 次 拿 到 一 个 访 存 地 址 ， 便 将 该 地 址 的 segment 部 
分 〈16 位 ) 作为 一 个 索引 号 去 查找 该 表 中 第 segment 
行 上 的 条 目 ， 从 中 读 出 一 个 基地 址 值 ， 然 后 利用 这 个 
值 ， 与 offset 相 加 ， 得 出 最 终 用 于 访 存 的 物理 地 址 ， 该 
条 目 内 同时 还 存 有 一 个 限 长 值 ，offset 如 果 超 过 这 个 值 
就 直接 报 异 常 。 大 家 可 能 已 经 体会 到 了 ， 只 要 操作 系 
统 的 内 存 管理 模块 在 这 个 表 对 应 的 条 目 中 放置 分 配 好 
的 地 址 ， 就 可 以 实现 “我 指 哪 你 才能 打 哪 ”的 效果 ， 
从 而 将 程序 框 住 在 由 操作 系统 分 配 的 内 存 区 间 来 运 
行 。 此 时 ， 由 于 物理 地 址 必须 加 上 一 个 偏 移 量 之 后 才 
被 拿 去 访 存 ， 所 以 黑客 程序 就 会 干 瞪眼 ， 即 便 它 知道 
另外 一 个 程序 的 访 存 地 址 ， 也 不 会 知道 这 个 访 存 地 址 
最 终 的 真实 位 置 ， 除 非 它 可 以 读 出 这 张 表 ， 但 这 是 不 
可 能 的 ， 见 下 文 。 

那么 ， 如 果 程 序 非 要 打 一 个 操作 系统 没有 指向 
的 地 方 呢 ? 比如 假设 这 个 表 中 的 第 FFFFh 项 并 没有 被 
分 配 任何 基地 址 ， 程 序 将 segment 号 FFFFh 存 入 CS 寄 
存 器 ， 此 时 80286 处 理 器 会 寻找 到 一 个 空 项 目 ， 则 报 
告 异常 。 那 好 ， 程 序 如 果 先 擅自 把 一 个 地 址 写 入 表 中 
的 这 行 呢 ? 对 不 起 ， 办 不 到 ， 因 为 这 个 表 所 在 的 地 址 
必须 不 能 被 分 配给 任何 用 户 程序 ， 那 么 程序 就 访问 不 
了 这 个 表 。 那 好 ， 如 果 程 序 自己 创建 一 个 表 ， 然 后 将 
这 个 表 的 基地 址 更 新 到 CPU 内 部 对 应 的 基地 址 寄存 器 
中 呢 ? 对 不 起 ， 做 不 到 ， 因 为 用 于 更 新 该 基地 址 寄存 
器 的 指令 ， 是 一 条 特权 指令 。 那 好 ， 如 果 程 序 随便 载 
入 某 个 值 到 CS/DS 寄 存 器 中 ， 而 这 个 值 对 应 的 表 中 的 
条 目 真 的 被 分 配 了 某 个 基地 址 ， 但 是 是 给 其 他 程序 分 
配 的 ， 此 时 该 程序 不 就 可 以 访问 到 其 他 程序 的 数据 了 
么 ? 为 了 解决 这 个 问题 ， 内 存 管理 模块 需要 为 表 中 的 


每 个 项 目 设置 一 个 访问 权限 ， 我 们 下 文中 再 描述 。 

可 以 看 到 ， 所 有 的 路 都 被 封 死 了 ， 程 序 只 能 在 层 
层 保密 下 执行 ， 这 就 是 所 谓 的 保护 模式 。 既 然 如 此 ， 
之 前 的 8086 程 序 就 无 法 在 80286 下 运行 了 ? 是 的 ， 
为 其 中 很 可 能 包含 一 些 特 权 指令 。 但 是 80286 提 供 了 
两 种 运行 模式 ， 一 种 是 实 模式 ， 加 电 后 默认 运行 在 实 
模式 ， 此 时 最 多 访问 1MB 内 存 ， 模 拟 8086 的 行为 ， 所 
以 该 模式 下 不 做 特权 级 限制 ， 可 以 兼容 8086 程 序 ， 第 
二 种 是 保护 模式 ， 通 过 对 特定 的 控制 寄存 器 写 入 对 应 
的 值 (通过 mov 指 令 将 CR0 寄 存 器 里 的 “PE” 位 改 为 
0 或 者 1 来 控制 ) ， 将 CPU 切换 到 保护 模式 运行 ， 此 时 
会 切换 到 上 述 分 段 和 特权 级 检查 模式 下 运行 。 


mov 指 令 按理 说 是 个 非特 权 指令 ,但 是 为 何 可 
以 用 来 操作 教 感 的 CR 寄存 器 呢 ? 值得 一 提 的 是 ， 
CPU 内 部 并 不 是 仅 根据 指令 的 Opcode 字 段 来 判断 其 
特权 ， 也 要 查看 目标 寄存 器 ， 比 如 CPU 一 看 是 要 操 
作 CR 寄 存 器 ， 而 当前 的 运行 特权 级 假设 为 Ring3， 
那 就 报 异常 。 


所 以 ， 正 如 前 文中 所 述 ， 实 现 保护 模式 ， 需 要 
第 一 ， 必 须 通过 某 种 方法 限定 访 存 范围 ， 第 二 ， 必 须 
将 指令 加 上 特权 级 限制 并 提供 特权 级 切换 机 制 〈 也 就 
是 前 文中 所 述 的 ， 在 Int 指 令 执行 后 会 切换 到 Ring0 权 
级 ， 返 回 到 用 户 进程 前 切换 到 Ring3 权 级 ， 以 及 程序 
主动 使 用 lds/les/mov 等 指令 更 改 DS/ES 寄 存 器 时 ， 要 
做 权限 匹配 ) 。 


10.1.4.1 全 局 描述 符 表 


上 文 所 述 的 这 个 表 ， 被 称 为 GDT (Global 
Descriptor Table， 全 局 描述 符 表 ) ， 用 于 保存 GDT 在 
内 存 中 的 基地 址 的 寄存 器 被 称 为 GDTR。 表 中 的 每 个 
项 目 被 称 为 一 个 描述 符 ， 其 不 但 描述 了 内 存 中 的 某 个 
段 基地 址 、 长 度 ， 还 需要 加 入 一 些 权限 等 属性 的 描 
述 ， 比 如 该 段 中 保存 的 数据 /代码 是 哪个 特权 级 才能 访 
问 的 、 该 段 保 存 的 是 用 户 数据 /代码 还 是 操作 系统 底层 
数据 /代码 、 该 段 保存 的 是 数据 还 是 代码 、 该 段 是 否 可 
被 读 / 写 /执行 等 信息 。 

如 图 10-6 左 侧 所 示 ， 当 访问 内 存 时 ，CPU 先 用 各 
个 段 基地 址 寄存 器 中 的 值 去 寻 址 GDT (需要 将 该 值 与 
GDTR 寄 存 器 中 的 值 相 加 才能 读 取 到 正确 条 目 ) ， 找 
到 对 应 的 描述 符 ， 读 出 描述 符 中 的 Base Address， 利 
用 这 个 Base Addresst+offset〔 程 序 代 码 中 给 出 ) 寻 址 
物理 内 存 。 描 述 符 中 存 有 基地 址 、 长 度 和 Access 属 性 
信息 上述) 。 你 会 发 现 ， 此 时 再 称 CS/DS 等 寄存 器 
为 “ 段 基 地 址 寄存 器 ”已 经 不 合适 了 ， 其 存储 的 已 经 
不 是 段 基地 址 〈 段 基地 址 存储 在 段 描述 符 中 ) ， 而 存 
储 的 是 GDT 中 段 描述 符 的 索引 ， 人 们 将 其 简称 为 段 选 
ФТ (Segment Selector) 。 利 用 段 选择 子 索 引 GDT 
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10-6 段 选择 子 、GDT、LDT 示 意图 


读 出 的 描述 符 ， 会 被 CPU 自动 存储 到 内 部 的 一 个 专用 
寄存 器 (该 寄存 器 不 可 被 程序 操作 ， 仅 供 CPU 后 续 使 
HD ， 这 样 ， 在 DS/CS 等 寄存 器 被 程序 改 成 其 他 值 之 
前 ，CPU 后 续 的 执行 不 需要 重复 地 去 读 GDT 来 拿 到 段 
基地 址 ， 直 接 用 上 一 次 保存 在 这 里 的 基地 址 与 offset 相 
加 即 可 ， 也 就 是 图 中 的 “ 段 描述 符 副本 寄存 器 ”。 


80286 处 理 器 为 了 兼容 8086 程 序 ， 其 加 电 启动 
之 后 首先 运行 在 实 模式 ， 需 要 靠 特殊 的 指令 将 其 切 
换 到 保护 模式 。 但 是 ，286 处 理 器 的 保护 模式 是 模 
拟 出 来 的 ， 具 体 来 说 ， 就 是 它 运行 在 实 模式 时 并 不 
像 8086 处 理 器 那样 用 CS/DS 等 段 寄 存 器 来 左 移 4 位 
作为 段 基 地 址 ， 而 是 使 用 上 述 的 “ 段 描述 符 副本 寄 
存 器 ”中 的 基地 址 来 寻 址 ， 也 就 是 说 ， 当 80286 处 
理 器 运行 在 实 模式 时 ， 其 会 自动 将 CS/DS 等 段 寄 存 
器 中 的 值 左 移 4 位 然后 写 入 这 个 副本 寄存 器 ， 后 续 
拿 着 它 作为 段 基地 址 寻 址 。 相 当 于 ， 在 保护 模式 下 
286 处 理 器 使 用 段 寄存 器 来 寻 址 GDT 拿 到 段 基地 址 
然后 写 入 副本 寄存 器 ， 在 实 模式 下 其 是 直接 将 段 寄 
存 器 的 值 左 移 4 位 写 入 副本 寄存 器 。 不 管 在 实 模式 
还 是 保护 模式 ，CPU 都 是 拿 着 该 副本 寄存 器 中 的 基 
地 址 来 寻 址 的 。 这 里 容易 忽略 的 是 ， 认 为 在 实 模式 
下 CPU 是 拿 着 CS 寄存 器 中 的 值 直接 输送 到 一 个 移 
位 4 位 的 移 位 器 然后 输出 地 址 ， 其 实 并 不 是 的 。 而 
8086 处 理 器 中 并 没有 这 个 副本 寄存 器 。 这 么 说 ， 对 
于 80286 处 理 器 ， 由 于 其 地 址 线 为 24 根 ， 其 副本 寄 
存 器 中 的 基地 址 长 度 也 为 24 位 ， 当 其 运行 在 实 模式 
下 ， 如 果 能 够 用 某 种 方式 强行 将 某 个 24 位 的 地 址 值 
载 入 这 个 副本 寄存 器 ， 那 么 即便 在 实 模式 下 ， 也 可 
以 访问 到 超过 1MB 的 内 存 地 址 。 在 实 模式 下 是 无 论 
如 何 也 无 法 载 入 超过 20 位 的 地 址 到 副本 寄存 器 的 ， 
但 是 ， 如 果 先 让 CPU 进入 保护 模式 ， 然 后 在 GDT 中 
捏造 一 条 描述 符 ， 将 基地 址 改 为 全 00000h， 长 度 改 


为 最 大 值 FFFFFFh ( 80286 的 最 大 24 位 寻 址 范围 ) ， 
然后 使 用 jmp CS: IP 指 令 (将 CS 值 设 置 为 GDT 中 
刚才 捏造 的 项 目的 序号 ) 让 CPU 载 入 CS 寄存 器 ， 
CPU 将 自动 将 GDT 中 捏造 的 地 址 自动 载 入 副本 寄 
存 器 ， 然 后 再 使 用 指令 从 保护 模式 切换 回 实 模式 ， 
80286 以 及 后 续 的 处 理 器 在 切换 模式 时 并 不 会 自动 
清空 这 个 副本 寄存 器 ( 这 被 一 些 人 认为 是 设计 上 的 
一 个 漏洞 ) ， 所 以 这 个 描述 符 就 会 留 在 副本 寄存 器 
中 ， 此 时 CPU 可 以 访问 全 部 的 地 址 空间 ， 后 续 程 序 
只 需要 使 用 Jmp IP 这 种 方式 来 寻 址 即 可 ， 不 需要 再 
给 出 CS， 一旦 给 出 新 CS， 则 CPU 会 用 给 出 的 CS 左 
移 4 位 写 入 副本 寄存 器 ， 之 前 的 24 位 地 址 就 会 变 成 
20 位 ， 被 限制 到 1MB 的 寻 址 范围 了 。 这 个 技巧 在 
80386 处 理 器 ( 支持 32 位 寻 址 ) 时 代 得 到 了 广泛 的 
应 用 。 后 来 有 人 认为 该 设计 并 非 漏洞 ， 因 为 80386 
处 理 器 加 电 后 自动 运行 在 实 模式 ， 其 第 一 个 取 指 令 
的 地 址 是 FFFFFFFO0h， 也 就 是 4GB-16B 处 ， 去 寻 址 
BIOS ROM， 而 这 显然 超出 了 实 模式 的 1MB 寻 址 范 
围 限 制 ， 其 内 部 电路 强行 将 该 地 址 载 入 副本 寄存 器 
中 ， 仅 当 程序 代码 中 第 一 次 尝试 载 入 CS 寄存 器 后 ， 
CPU 的 寻 址 范围 才 会 立即 被 立即 限制 到 1MB 内 ( 当 
然 ， 可 以 打开 A20 地 址 线 ， 这 样 可 以 多 寻 址 64KB- 
16B=48B 的 内 存 ) 再 也 跳 不 出 了 ， 除 非 切 换 到 保护 
模式 。 所 以 看 上 去 是 有 意 这 样 设计 的 。 但 是 如 果 说 
它 是 漏洞 也 合理 ， 因 为 完全 可 以 被 设计 为 从 保护 模 
式 退 出 到 实 模式 时 自动 清空 副本 寄存 器 ， 但 是 却 没 
有 这 么 做 。 所 以 这 个 技巧 也 算是 一 个 免费 赠送 。 
CPU 内 部 的 用 于 存放 描述 符 副 本 的 寄存 器 ， 在 虚拟 
机 模式 下 会 被 暴露 出 来 ， 比 如 CS.Base、CS.Limit 
等 ， 可 使 用 特殊 指令 ( 比如 VMREAD 指 令 ) 来 分 
别 操作 该 寄存 器 内 的 基地 址 部 分 和 长 度 部 分 。 在 
实 模式 下 寻 址 所 有 内 存 空 间 又 被 人 戏称 为 “Unreal 
Mode”。 这 个 技巧 后 来 甚至 被 微软 在 MS-DOS 操 作 
系统 中 用 于 访问 扩展 内 存 ， 详 见 下 文 。 
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对 于 操作 系统 底层 的 程序 代码 和 数据 ， 也 可 以 使 
用 分 段 方 式 来 组 织 ， 作 用 步骤 与 上 述 相同 。 那 就 会 产 
生 一 个 问题 。 现 在 我 们 来 思考 一 下 上 面 的 那个 遗留 问 
题 ， 假 设 有 两 个 进程 A 和 B，A 为 操作 系统 底层 的 程 
序 ， 其 DS 段 基地 址 被 存放 到 了 GDT 中 的 第 a 项 ; 而 程 
序 B 是 用 户 态 程序 ， 其 在 运行 时 执行 了 lds 指 令 ， 尝 试 
把 值 a 装 入 到 DS 寄存 器 中 ， 这 样 ，CPU 就 会 用 a 来 寻 址 
GDT 中 的 段 描 述 符 找 出 基地 址 ， 这 样 ，B 就 可 以 访问 
到 系统 底层 程序 A 的 数据 。 这 样 就 无 法 实现 保护 模式 
了 ， 因 为 用 户 态 程序 可 以 肆意 访问 内 核 态 的 数据 。 如 
何 解决 ? 80286 使 用 了 三 个 权限 控制 字段 来 解决 这 个 
问题 。 


10.1.4.2 ”实现 权限 检查 


前 文中 提 到 过 ，Intel CPU 提 供 了 4 个 级 别 的 Ring 权 
限 ， 用 户 程序 运行 在 Ring3 最 低 权 限 下 ， 操 作 系 统 自身 
的 底层 程序 运行 在 Ring0 最 高 权限 下 。 那 么 如 何 体现 这 
种 权限 级 别 ? 如 图 10-7 所 示 ，CS 和 各 种 其 他 段 选择 子 
寄存 器 中 ， 其 实 不 仅 存放 选择 子 ， 还 存放 2 位 长 度 的 
CPL (Current Privilege Level) 控制 字 。 操 作 系统 启动 
之 初 ，CPU 依 然 处 于 实 模式 ， 可 运行 所 有 特权 代码 ， 
操作 系统 启动 到 一 定 过 程 会 将 CPU 切换 到 保护 模式 运 
行 ， 然 后 自己 会 在 Ring0 来 运行 自己 的 代码 ， 此 时 ， 
CS 寄存 器 中 的 CPL 字 段 会 为 00， 也 就 是 表示 Ring0， 
表示 当前 的 运行 权 级 为 Ring0 最 高 级 。 当 Loader 程 序 
加 载 某 个 用 户 程序 时 〈 比 如 Linux 操 作 系统 下 的 命令 
行 Shell 程 序 ) ， 首 先 为 程序 分 配 内 存 ， 然 后 将 要 用 户 
程序 的 入 口 地 址 ， 以 及 对 应 的 CS 寄存 器 选择 子 值 CG 
含 CPL 值 并 设置 为 3) 压 入 栈 中 ， 然 后 使 用 iret 指 令 GE 
见 后 文 ) ， 让 CPU 将 栈 中 的 这 些 参数 装载 到 CS 寄存 器 
中 ， 然 后 跳 转 到 指定 的 用 户 程序 处 执行 。 

当 程 序 代码 需要 访问 的 数据 位 于 与 当前 段 不 同 的 
段 中 时 ， 比 如 希望 跳 到 另 一 个 代码 段 ， 或 者 访问 另 一 
个 数据 段 中 的 内 容 时 ， 程 序 代码 中 需要 给 出 【新 段 选 
ЖЕГІ: 【offset】， 新 的 段 选择 子 中 的 权限 控制 字 
被 称 为 RPL (Requested Privilege Level) ， 之 所 以 被 
称 为 Requested 的 原因 是 因为 当前 程序 “要 求 ” 跳 转 到 
该 段 。CPU 根 据 新 段 选 择 子 从 GDT 中 选 出 对 应 的 描述 
符 ， 而 描述 符 中 也 存放 有 权限 控制 信息 ， 被 称 为 DPL 
(Descriptor Privilege Leve) 。 于 是 ， 这 个 场景 就 是 : 
某 个 运行 在 CPL 级 别 的 人 当前 段 寄 存 器 中 的 CPL》， 
拿 着 印 有 RPL 级 别 的 通行 证 ( 欲 切 换 到 的 目标 段 选择 
子 中 的 RPL) ， 欲 进入 只 有 不 低 于 DPL 级 别 才能 进入 的 
场所 (目标 段 描述 符 中 的 DPL〉。 门 卫 如 果 此 时 只 检 
查 该 人 出 示 的 通行 证 上 的 RPL 的 话 ， 那 就 太 傻 了 ， 我 
完全 可 以 伪造 一 张 Ring0 的 RPL 通 行 证 ， 因 为 代码 中 可 
以 直接 给 出 被 编辑 成 任何 值 的 段 选择 子 。 所 以 ,门卫 
应 当先 看 你 的 身份 证 (当前 的 CS 寄存 器 ， 印 有 CPL 级 
别 ) ， 再 看 你 的 RPL 通 行 证 ， 取 其 中 权限 较 低 的 值 ， 

再 与 DPL 比 较 。 整 个 判断 过 程 如 图 10-8 所 示 。 


既然 如 此 ， 印 有 RPL 的 通行 证 好 像 根 本 是 多 余 
的 ，CPU 只 把 CPL 与 DPL 进 行 对 比 不 就 可 以 了 么 ? 但 
是 ， 设 想 这 样 一 个 场景 一 个 拥有 Ring0 最 高 级 别 的 
人 ， 要 想 进 入 某 场所 ， 但 是 该 场所 中 有 Ring3、Ring2 
和 Ring1 三 个 级 别 的 区 域 ， 而 本 次 办 的 事 只 需要 Ring3 
通行 证 访问 Ring3 区 域 即 可 ， 如 果 此 时 门卫 只 看 脸 而 
不 看 通行 证 ， 那 么 Ring2 和 Ring1 区 域 你 也 能 进去 ， 
这 会 导致 潜在 的 问题 。 比 如 ， 一 个 运行 在 Ring3 的 程 
序 A 执 行 了 某 种 系统 调用 Int 指令 ) ， 委 托 Ring0 的 
程序 做 某 些 事情 ，Int 指 令 被 执行 之 后 ， 会 载 入 对 应 
的 Ring0 级 CS 描述 符 从 而 处 于 Ring0 权 级 执行 ， 也 就 
是 CS 中 的 CPL=0， 在 执行 过 程 中 ，Ring0 的 程序 可 能 
会 访问 到 其 他 的 Ringl1、Ring2、Ring3 程 序 中 的 一 些 
数据 ， 或 是 A 故意 设计 好 的 ， 或 是 不 经 意 的 或 者 各 种 
bug。 而 此 时 CPU 会 全 部 予以 放行 ， 为 什么 ? 因为 当 
前 的 CPL=0， 最 高 特权 ， 可 以 肆意 访问 任何 其 他 特权 
级 的 数据 ， 而 这 便 等 效 于 : 委托 Ring0 做 事 的 Ring3 程 
序 挟 天 子 以 令 诸侯 ， 四 两 拨 千 斤 ， 而 它 原 本 是 没有 权 
限 去 访问 其 他 的 Ring3 程 序 中 的 数据 的 ， 更 没有 权限 
访问 Ring2 级 的 数据 。 正 因 如 此 才 会 设置 RPL， 当 发 生 
上 述 情况 时 ，Ring0 如 果 要 访问 比如 某 个 DS， 会 强行 
将 该 DS 的 RPL 字 段 设置 为 程序 A 的 CPL， 也 就 是 3， 那 
么 就 有 了 这 种 效果 : 当前 正在 运行 的 是 Ring0 程 序 ， 
CS'PÜjJCPL-0, 但 是 要 访问 的 DS 的 RPL=3， 这 样 ， 
CPU 拿 着 这 个 DS 去 选择 GDT 中 的 描述 符 ， 如 果 目 标 描 
述 符 的 DPL=2， 则 不 予 放 行 ， 因 为 当前 DS 的 RPL 级 别 
比 DPL 低 。 而 如 果 当 前 运行 的 程序 为 Ring3，CPL=3， 
其 给 出 一 个 RPL=2 的 DS 试图 越权 怎么 办 ? 所 以 ，CPU 
最 终 会 判断 DPL 值 是 否 宇 max{CPL, RPL}， 而 不 能 仅 
判断 RPL 或 者 CPL。 


10.1.4.3 ”本 地 /局 部 描述 符 表 


经 过 这 样 设计 之 后 ， 只 要 操作 系统 将 自身 的 数据 
/代码 段 在 GDT 的 描述 符 中 的 DPL 设 置 为 0%，Ring3 的 
进程 就 无 法 访问 到 这 些 描述 符 。 但 是 仍然 有 个 问题 ， 
Ring3 的 进程 A 是 否 可 以 擅自 访问 Ring3 的 进程 B 的 数据 
段 呢 ? 按照 上 述 场 景 ， 如 果 进程 A 强制 给 出 一 个 CS 选 
择 子 ， 去 选择 GDT 中 进程 B 的 描述 符 ， 那 么 CPU 在 做 
权限 检查 时 发 现 CPL= 目 标 DPL， 则 予以 放行 ， 最 终 A 
可 以 妾 探 B。CPU 分 不 清 GDT 中 的 哪个 描述 符 隶 属于 
当前 程序 ， 这 些 需 要 由 操作 系统 来 做 ， 而 CPU 只 能 提 
供 硬件 上 的 鉴别 辅助 ， 当 然 ， 让 CPU 全 做 了 也 可 以 ， 
但 是 会 增加 CPU 设计 负担 而 且 不 利于 灵活 性 。 当 然 ， 
80286 的 设计 者 是 不 会 有 这 个 漏洞 的 ， 其 做 法 是 引入 
另 一 个 表 LDT (Local Descriptor Table， 本 地 /局 部 描 
述 符 表 ) 。 

操作 系统 在 分 配 内 存 时 ， 将 每 个 用 户 进程 的 所 有 
段 的 描述 符 都 被 放置 到 LDT 中 ， 每 个 进程 一 个 LDT。 
所 有 的 LDT， 每 个 都 作为 一 个 GDT 中 的 描述 符 所 描述 
的 段 而 存在 ， 于 是 ，GDT 至 此 有 了 两 种 段 : 放 数据 
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/代码 的 段 、 放 LDT 表 的 段 ， 对 应 的 描述 符 也 分 别 被 
称 为 Segment Descriptor, LDT Descriptor。 然 后 ， 在 
CPU 内 部 增设 一 个 寄存 器 : LDTR， 用 来 存放 当前 运 
行程 序 的 、 用 于 从 GDT 中 选 出 LDT 描 述 符 的 LDT 选 择 
子 ， 其 结构 与 图 10-7 下 方 所 示 相 同 ， 其 TI=0 (Table 
Indicator) ， 表 示 该 选择 子 要 去 GDT 中 选 出 描述 符 ， 
其 CPL/RPL 字 段 为 3， 表 示 当 前 为 用 户 态 进程 ， 其 剩 
余 的 13 位 作为 索引 ， 去 GDT 中 选 出 的 就 是 对 应 的 LDT 
描述 符 ， 并 将 其 缓存 到 对 外 不 可 见 的 副本 寄存 器 中 。 
LDT 描 述 符 的 结构 如 图 10-7 中 左上 角 所 示 相 同 ， 其 
中 包含 LDT 的 基地 址 和 长 度 ， 从 而 让 CPU 能 够 寻 址 
LDT。 知 道 了 LDT 的 位 置 之 后 ，CPU 从 而 再 用 CS/DS 
等 代码 /数据 段 的 选择 子 寄存 器 中 的 值 ， 再 去 索引 LDT 
中 记录 的 该 进程 自身 的 代码 /数据 段 描 述 符 ， 将 拿 到 的 
描述 符 放置 到 CS/DS 寄 存 器 旁边 的 副本 缓存 中 ， 后 续 
所 有 的 访 存 请 求 将 会 使 用 副本 缓存 中 给 出 的 段 基地 址 
+offset 来 寻 址 物理 内 存 。 

每 个 进程 加 载 之 前 ， 操 作 系统 为 其 分 配 内存 ， 
并 生成 一 张 LDT， 将 分 配 好 的 所 有 段 的 描述 符 放 
入 表 中 ， 然 后 再 在 GDT 中 开辟 一 个 新 描述 符 条 目 
项 ， 将 LDT 的 基地 址 记录 进去 ， 然 后 采用 lldt (Load 
LDT) 特权 指令 将 LDT 选 择 子 载 入 LDTR 寄 存 器 ， 这 
个 动作 会 触发 CPU 在 后 台 自动 利用 该 选择 子 去 GDT 
中 读 出 对 应 的 LDT 段 描述 符 载 入 自己 内 部 的 副本 组 
存 ， 从 而 用 该 基地 址 去 寻 址 LDT， 然 后 将 程序 入 口 
的 CS: IP 中 的 CS 载 入 CS 寄存 器 ，IP 载 入 PC 指针 寄存 
器 ， 这 样 CPU 就 可 以 根据 CS 选择 子 从 LDT 中 选 出 CS 
段 描述 符 ， 从 而 得 到 CS 段 基 地 址 ， 与 IP 相 加 ， 拿 着 
相 加 后 的 地 址 访 存 ， 就 可 以 拿 到 程序 入 口 的 指令 ， 
然后 就 可 以 开始 执行 了 。 这 里 面 的 映射 关系 非常 复 
杂 ， 一 层 套 着 一 层 ， 不 容易 梳理 清楚 。 可 以 结合 
图 10-6 中 给 出 的 示意 图 仔细 推 殴 。 操 作 系统 的 进程 
管理 模块 也 需要 为 每 个 进程 记录 其 各 自 的 LDT 选 择 
子 ， 切 换 进程 之 前 必须 将 对 应 进程 的 LDT 选 择 子 装 
载 到 LDTR 寄 存 器 中 。 

每 个 选择 子 寄存 器 (包括 LDT/CS/DS/ES/FS/ 
GS) 的 第 三 位 ， 也 就 是 位 2〈 见 图 10-7 中 的 TI，Table 
Indicator) ， 来 表示 当前 的 选择 子 是 要 去 从 GDT 
(TI=0) 还 是 LDT (ТІСІ) 中 选 出 描述 符 。 也 就 是 
说 ， 进 程 可 以 自主 决定 使 用 GDT 还 是 使 用 LDT 来 获 
取 段 基地 址 。 如 果 使 用 LDT 来 获取 段 基地 址 ， 那 么 
CPU 根据 LDTR 旁 的 描述 符 副 本 缓冲 器 中 的 LDT 基 地 
址 来 找到 LDT， 然 后 用 CS/DS 等 段 选择 子 来 索引 表 中 
对 应 的 描述 符 ， 获 取 段 基地 址 并 缓冲 到 CS/DS 旁 的 副 
本 缓冲 器 中 ， 以 供 后 续 访 存 计算 地 址 使 用 。 

由 于 lldt 指 令 为 特权 指令 ， 所 以 用 户 程序 要 么 只 
能 访问 由 操作 系统 指定 的 LDT 中 的 描述 符 中 的 基地 
址 指向 的 段 的 访 存 范围 ， 要 么 只 能 访问 GDT 中 任意 
与 当前 进程 CPL 相 同 或 者 级 别 权 级 更 低 的 描述 符 中 
的 基地 址 指向 的 段 范围 。 一 般 来 讲 ， 操 作 系 统 会 将 


自身 的 数据 和 代码 所 在 的 段 描 述 在 GDT 中 的 描述 符 
中 ， 并 将 DPL 设 置 为 0%， 以 及 将 S 字 段 设 置 为 0 以 表示 
该 段 为 系统 段 ， 这 样 ， 用 户 进 程 尝试 访问 这 些 描述 
符 时 就 会 被 CPU 给 禁 掉 并 报 异 常 。 只 要 操作 系统 确 
保 所 有 的 用 户 进程 都 采用 LDT 来 存储 段 描述 符 ， 而 
不 是 直接 放 到 GDT 中 ， 就 可 以 做 到 Ring3 之 间 的 隔离 。 
LDT 的 另 一 个 作用 是 可 以 更 清晰 地 将 每 个 进程 的 描述 
符 归 拢 ， 而 不 是 分 散在 GDT 中 各 处 ， 也 便于 管理 。 

那么 ， 为 何 依然 可 以 用 GDT 来 存放 用 户 进程 的 
数据 /代码 段 描述 符 呢 ， 都 放 LDT 不 好 么 ? GDT 的 存 
在 ， 是 为 了 方便 多 个 Ring3 的 程序 共享 数据 用 的 。 比 
如 ， 操 作 系统 可 以 分 配 一 段 内 存 ， 让 其 DPL=3， 然 
后 将 该 描述 符 放 置 到 GDT 中 ， 这 样 ， 多 个 Ring3 的 
程序 就 都 可 以 访问 它 了 ， 当 然 ， 也 可 以 在 每 个 进程 
的 LDT 中 分 别 放 置 一 份 同样 的 描述 符 ， 其 段 基地 址 
指向 同一 段 内 存 ， 但 是 这 样 做 就 麻烦 了 一 些 ， 但 是 
却 有 更 高 的 可 控 性 ， 因 为 如 果 将 共享 数据 放 到 GDT 
中 ， 那 么 所 有 进程 都 可 以 访问 ， 如 果 想 做 到 只 让 某 
个 或 者 某 些 进程 访问 ， 那 就 需要 放 到 对 应 进程 的 
LDT 中 而 不 是 GDT 中 。 

当 程序 运行 动态 申请 内 存 时 ， 会 由 内 存 管 理 模 
块 在 当前 段 分 配 新 的 区 域 ， 或 者 开辟 新 的 段 ， 在 GDT 
或 者 LDT 里 开辟 一 条 空 描述 项 ， 将 分 配 好 对 应 的 段 基 
地 址 写 入 ， 然 后 将 段 基地 址 返回 给 用 户 程序 ， 用 户 程 
序 使 用 CS#4@，IP 来 访问 申请 到 的 内 存 ，CPU 会 拿 着 
CSs58 去 到 LDT/GDT 中 找到 对 应 描述 项 ， 从 而 找到 基 
地 址 。 

至 此 ，Ring3 程 序 不 可 直接 访问 Ring0 的 数据 ， 也 
不 可 直接 访问 其 他 Ring3 的 数据 ， 做 到 了 彻底 的 保护 
模式 。 

如 图 10-9 所 示 为 不 同 的 特权 级 别 示 意图 ， 图 中 
使 用 了 Level 而 不 是 Ring 这 个 词 来 表示 特权 级 别 ， 
Level 是 Intel 在 早期 使 用 的 词汇 。 目 前 ， 基 本 上 没 
有 代码 跑 在 Ring1/2 特 权 级 ， 基 本 上 只 使 用 Ring3 和 
Ring0。 
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图 10-9 ”不同 级 别 特权 示意 图 

解决 了 多 任务 + 保护 模式 这 个 需求 之 后 ， 一 个 新 
的 需求 就 要 开始 酝酿 了 ， 屠 就是， 每 个 段 在 内 存 中 
必须 是 连续 存放 的 ， 如 果 内 存 中 的 空闲 空间 被 碎片 


化 了 ， 比 如 有 100 个 16KB 的 小 碎片 ， 但 是 某 个 程序 的 
DS 段 大 小 为 32KB， 那 么 该 程序 将 无 法 运行 ， 此 时 ， 
操作 系统 的 内 存 管 理 程序 不 得 不 在 后 台 对 这 些 碎片 进 
行 合并 ， 合 并 势必 要 影响 到 现 有 的 正在 运行 的 进程 ， 
需要 将 它们 进行 搬移 操作 ， 这 一 搬移 ， 意 味 着 GDT、 
LDT 中 记录 的 基地 址 全 都 需要 改 一 遍 ， 同 时 ， 程 序 代 
码 中 的 绝对 地 址 引用 也 需要 被 再 次 重新 修正 ， 这 个 过 
程 很 麻烦 ， 也 很 耗 时 。 于 是 人 们 就 在 想 ， 有 没有 一 种 
机 制 ， 不 用 进行 碎片 合并 ， 而 是 采用 某 种 动态 地 址 映 
射 方式 ， 让 这 32KB 的 内 存 拆 分 到 两 个 16KB 中 ， 同 时 
还 能 保持 对 程序 的 透明 。 

如 何 做 到 ? 那 当然 是 采用 第 5 章 中 介绍 过 的 分 页 
技术 了 ， 每 个 页 面 必须 在 内 存 中 连续 存放 ， 但 是 页 面 
可 以 被 设置 为 一 个 更 小 的 粒度 ， 比 如 4KB， 这 样 就 可 
以 在 无 须 合并 碎片 的 前 提 下 杜绝 浪费 。 其 次 ， 采 用 页 
表 作为 映射 表 ， 动 态 地 将 多 个 位 于 零散 位 置 的 页 面 合 
并 成 一 个 虚拟 的 连续 地 址 空间 。 


10.1.5 80386 分 段 + 分 页 模式 


Intel 于 1978 年 推出 8086，1982 年 推出 80286， 
1985 年 推出 80386。386 处 理 器 从 16 位 变 为 32 位 ， 同 时 
开始 支持 分 页 方式 的 内 存 管理 辅助 。386 处 理 器 可 以 
关闭 分 页 机 制 ， 使 用 与 286 时 代 相 同 的 分 段 机制 来 运 
行 ， 也 可 以 同时 开启 分 段 和 分 页 机 制 ， 但 是 分 段 机制 
不 能 关闭 ， 必 须 打 开 。 可 以 通过 将 位 于 CR0 控 制 寄存 
器 中 的 PG 位 置 为 1 来 打开 分 页 机 制 。 分 页 机 制 打开 之 
后 ， 操 作 系统 的 内 存 管理 模块 需要 为 每 个 进程 准备 各 
自 的 页 映射 表 ， 并 负责 将 分 配 好 的 物理 页 的 地 址 写 入 
到 映射 表 中 ， 并 记录 每 个 进程 对 应 的 映射 表 的 基地 
址 ， 在 进程 切换 时 将 映射 表 基地 址 写 入 CR3 寄 存 器 ， 
供 CPU 知 晓 。 


CPU 如 何 知 道 某 个 地 址 是 物理 地 址 还 是 虚拟 
地 址 ? 这 就 取决 于 CR0 寄 存 器 中 的 PE (Protected 
Mode Enable ) 位 和 PG ( Paging Enable ) 位 的 值 ， 
PE=0 则 运行 在 实 模式 ， 访 存 请 求 的 地 址 都 是 物理 
地 址 。 如 果 PE=1，PG=0， 则 运行 在 保护 模式 + 分 
段 地 址 模式 ， 访 存 请 求 的 地 址 是 段 基地 址 +offset 的 
形式 ; 如 果 PE=1，PG=1， 则 运行 在 保护 模式 + 分 
段 + 分 页 模式 ， 访 存 请 求 的 地 址 最 终 需 要 经 过 页 表 
的 翻译 。 


如 图 10-10 所 示 ， 分 页 机 制 不 能 单独 使 用 ， 必 须 
依然 先 采 用 分 段 机 制 ， 操 作 系统 依然 需要 对 LDT、 段 
描述 符 等 数据 结构 进行 初始 化 和 填充 ， 以 及 配置 对 应 
的 分 段 相关 的 寄存 器 ， 并 按照 上 文 所 述 的 方式 得 到 线 
性 地 址 之 后 ， 再 将 该 线性 地 址 当成 一 个 索引 去 查询 页 
映射 表 ， 重 新 映射 成 物理 地 址 ， 至 于 每 个 页 面 被 分 配 


第 10 章 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 四 于 玫 吓 


到 物理 内 存 的 哪里 ， 完 全 由 操作 系统 来 统一 安排 。 
10.1.5.1 页 目录 /页 表 / 页 面 


支持 386 分 页 模式 的 操作 系统 ， 需 要 在 内 存 中 准 
备 一 个 页 目录 (Page Directory) 和 若干 的 页 表 (Page 
Table) 。 当 某 个 进程 被 加 载 执行 之 前 ， 首 先 为 其 分 配 
好 足够 数量 的 物理 页 面 ( 图 中 的 Page Frame) ， 然 后 
将 这 些 物 理 页 的 基地 址 全 部 记录 到 页 表 中 ， 每 个 页 面 
的 基地 址 占用 页 表 中 的 一 个 条 目 。 一 个 页 表 的 容量 是 
有 限 的 ， 放 不 开 的 话 则 再 生成 一 个 页 表 来 放 。 这 样 ， 
一 大 堆 物理 页 可 能 会 使 用 多 个 页 表 来 指向 ， 然 后 再 生 
成 一 个 数据 结构 一 一 页 目录 ， 将 当前 进程 的 所 有 页 表 
的 基地 址 作为 一 个 表 项 记录 到 页 目录 中 ， 最 后 ， 将 页 
目录 的 基地 址 记录 到 负责 进程 调度 的 模块 所 维护 的 进 
程 信息 表 中 ， 并 在 执行 每 个 进程 前 将 对 应 的 页 目录 基地 
址 载 入 CR3 寄 存 器 。 如 图 10-10 右 上 角 所 示 为 页 表 中 的 页 
表 项 的 数据 结构 ，386 处 理 器 采用 了 20 位 来 记录 页 面 基 
地 址 ， 这 意味 着 每 个 页 表 可 以 指向 最 大 2”=1M 个 页 面 ， 
每 个 页 面 4KB 大 小 ， 那 么 每 个 页 表 最 大 可 指向 4GB 大 小 
的 内 存 空间 。 页 表 项 中 其 他 字段 为 属性 控制 位 。 

为 了 可 控 性 、 可 视 性 、 可 理解 性 更 好 ，386 处 理 
器 人 为 地 将 线性 地 址 分 隔 成 三 段 ， 从 高 位 到 低位 分 
别 为 10 位 长 的 页 表 号 索引 字段 、10 位 长 的 页 面 号 索 
引 字 段 和 12 位 长 的 页 内 字 节 偏 移 量 字 段 。 先 使 用 页 
表 号 索引 字段 来 寻 址 页 目录 读 出 一 个 页 目录 项 〈 页 
目录 中 最 大 可 包含 2"=1024=1K 个 页 目录 项 ， 也 就 
是 最 多 可 以 指向 1K 个 页 表 ) ， 根 据 页 目录 项 中 记录 
的 页 表 号 /指针 找到 对 应 的 页 表 ， 再 根据 线性 地 址 中 
的 页 面 号 索引 字段 来 寻 址 该 页 表 从 而 读 出 对 应 的 页 
表 项 (一 个 页 表 中 最 多 可 以 包含 2"=1024=1K 个 页 表 
项 ， 也 就 是 最 多 可 以 指向 1K 个 页 面 )， 最 终 得 到 该 
页 表 项 中 记录 的 页 面 号 /指针 ， 然 后 将 该 指针 与 线性 
地 址 中 的 页 内 字 节 偏 移 量 字 段 (一 个 页 面 中 最 多 包含 
22=4096=4K 个 字 节 ) 相 加 ， 便 得 到 该 线性 地 址 最 终 
被 映射 到 的 物理 地 址 ， 然 后 使 用 该 物理 地 址 访 存 
即 可 访问 对 应 的 字 节 。 

其 实 ， 内 存 管 理 模块 完全 可 以 不 搞 出 页 目录 和 页 
表 这 两 个 东西 ， 直 接 把 所 有 页 面 放 在 一 个 单一 层级 的 
大 表 中 ， 直 接 用 整个 线性 地 址 作为 索引 号 来 寻 址 这 个 
大 表 ， 得 到 的 结果 也 是 一 样 的 。 但 是 这 样 做 不 便于 管 
理 ， 也 不 直观 ， 最 重要 的 一 点 ， 这 张大 表 必 须 在 物理 
上 是 连续 存放 的 ， 因 为 CPU 是 靠 单一 的 一 个 CR3 基 地 
址 寄存 器 来 知晓 该 表 的 位 置 的 。 同 时 ， 放 到 一 个 大 表 
中 ， 也 会 浪费 存储 空间 ， 因 为 系统 启动 之 后 就 需要 立 
即将 这 整个 大 表 全 部 准备 好 ， 即 便 它 里 面 会 有 大 量 的 
空 项 目 ， 这 样 会 浪费 较 多 内 存 ， 尤 其 是 在 进程 数量 较 
多 的 时 候 ; 而 如 果 采 用 上 述 分 级 方式 ， 只 需要 将 页 目 
录 中 的 所 有 项 初始 化 好 ， 然 后 随 着 程序 越 来 越 多 的 访 
存 ， 逐 渐 开 辟 页 表 ， 一 个 一 个 地 开辟 ， 逐 渐 增 长 ， 这 
样 会 节省 内 存 。 


RS 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


可 以 精心 安排 每 个 段 描述 符 中 保存 的 基地 址 ， 到 每 个 段 对 应 一 个 页 目录 的 一 对 一 效果 ， 这 样 更 加 直 
使 得 其 DIR 段 不 同 ， 这 样 就 会 指向 不 同 的 页 目录 ， 达 ” 观 ， 管 理 起 来 也 更 加 简便 ， 如 图 10-10 右 下 角 所 示 。 
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10-10 80386 CPU 采用 的 分 段 + 分 页 方式 示意 图 
jm» 


如 图 10-10 所 示 的 页 表 为 两 级 页 表 ， 第 一 级 为 页 目录 ， 第 二 级 为 页 表 。 还 可 以 采用 三 级 、 四 级 页 表 。 在 最 
新 的 64 位 的 CPU 和 操作 系统 ( 比如 Linux ) 上 ， 多 采用 四 级 页 表 的 方式 ， 即 全 局 页 目录 、 上 级 页 目录 、 中 间 页 
目录 、 页 表 ， 如 图 10-11 所 示 。 


页 全 局 目录 PGD 页 上 级 目录 PUD 


图 10-11 64 位 系统 所 使 用 的 页 表 模 式 
10.1.5.2 比较 分 页 和 分 段 机 制 


最 终 也 会 被 映射 成 不 同 的 物理 地 址 。 也 就 是 说 ， 

思考 一 下 ， 在 使 用 了 分 页 机 制 之 后 ， 不 同 进程 ”进程 间 访 存 范围 的 隔离 完全 是 依靠 不 同 的 物理 页 面 
的 段 区 间 ， 是 否 还 是 必须 互 不 重合? 根本 不 需要 ”来 间隔 的 。 那 么 ，“ 段 基地 址 ”这 个 东西 已 经 变 得 
Т! 即便 两 个 不 同 进程 使 用 相同 的 段 基地 址 ， 由 于 毫 无 意义 ， 其 不 再 描述 “该 段 在 物理 内 存 中 处 于 哪 
其 各 自 对 应 着 不 同 的 CR3 寄 存 器 值 ， 也 就 是 对 应 着 不 。” 里 ”， 而 描述 的 是 一 个 虚无 的 地 址 空间 ， 你 可 以 随 
同 的 页 目录 、 不 同 的 页 表 、 页 面 ， 页 面 中 存储 着 互 。 便 指定 一 个 段 基 地 址 ， 而 根本 不 需要 管 其 他 进程 是 
不 重 码 的 物理 地 址 ， 所 以 即便 是 相同 的 线性 地 址 ， 否 已 经 占用 了 该 段 地址 区 间 ， 只 需要 保证 同一 个 进 
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程 内 部 自己 不 要 跟 自己 冲突 即 可 ， 比 如 某 时 刻 给 进程 A 分 配 

了 段 基地 址 100、 长 度 100， 后 续 进程 A 再 次 申请 分 配 内 存 ， А 

结果 给 其 分 配 了 段 基地 址 530、 长 度 100， 这 就 自己 和 自己 重 Ë 

RT. 4 

如 图 10-12 所 示 ， 我 们 前 文中 依次 介绍 了 8086 的 分 段 + 实 i | 
НЕ е 


[Physical Ad. 


example is for 4-KB) 
унон scores EC. Tn 


模式 、80286 的 分 段 + 保护 模式 以 及 80386 的 分 段 + 分 页 + 保护 
模式 。 在 实 模式 下 ， 段 基地 址 左 移 4 位 +offset 算 出 来 的 地 址 直 | — AB 
接 就 是 物理 地 址 ， 直 接 放 到 总 线 上 ， 在 这 种 模式 下 ， 所 有 进 i : 
程 可 以 相互 看 到 对 方 的 数据 ， 至 于 是 否 踩踏 别人 的 数据 ， 全 || 


靠 自觉 ， 这 像 个 每 家 都 没有 装 门 的 大 杂 院 ， 想 到 谁 家 串门 直 
接 就 进去 了 ; 在 分 段 + 保护 模式 下 ， 大 家 还 是 在 同一 个 大 杂 院 
里 ， 但 是 每 家 都 装 上 了 门 ， 虽 然 每 家 都 知道 其 他 家 的 位 置 ， 
但 就 是 进 不 去 别人 家 。 比 如 ， 某 个 进程 被 分 配 了 一 个 段 基地 
址 100 长 度 100 的 段 ， 然 后 又 被 分 配 了 一 个 段 基地 址 300 长 度 
100 的 段 ， 该 程序 有 理由 猜测 ， 在 段 基地 址 200 长 度 100 这 个 区 
间 ， 极 有 可 能 是 被 其 他 进程 给 占用 了 。 而 在 分 页 + 保护 模式 
下 ， 每 一 家 都 仿佛 在 一 个 虚幻 的 世界 中 独占 这 个 大 杂 院 ， 院 
子 里 只 有 自己 一 家 人 ， 其 他 地 方 都 空空 如 也 ， 可 以 踏 进 任何 
一 个 房间 ， 仿 佛 整个 内 存 地 址 空间 都 被 自己 独占 ， 而 实际 情 
况 是 当 你 踏 入 某 个 房间 时 ， 系 统 在 底层 的 现实 世界 中 为 你 现 
分 配 一 个 房间 供 你 使 用 ， 至 于 这 个 房间 在 哪里 ， 你 是 根本 不 
知道 的 ， 而 且 极 有 可 能 现实 世界 中 已 经 没有 一 等 房间 了 ， 而 
给 你 分 配 了 一 个 二 等 房间 。 如 图 10-13 所 示 ，A 可 能 被 Swap 到 
了 硬盘 上 ， 而 A 却 浑然 不 知 ， 只 感觉 自己 运行 变 得 慢 了 起 来 ， 
从 而 间接 地 感知 到 什么 。 这 种 可 以 将 内 存 中 的 页 面 神 不 知 鬼 
不 觉 地 瞒 着 进程 透明 地 搬移 到 各 个 地 方 的 内 存 管 理 技术 被 称 
为 虚拟 内 存 技术 。 其 实 ， 在 纯 分 段 模式 下 也 可 以 实现 这 个 技 
术 ， 但 是 由 于 每 个 段 的 大 小 不 可 控 ， 有 的 很 大 有 的 很 小 ， 粒 
度 太 大 ， 实 现 起 来 会 导致 性 能 不 均衡 ， 管 理 不 便 。 而 在 分 页 
模式 下 ， 以 4KB 为 粒度 ， 可 以 实现 更 精细 的 管理 ， 所 以 操作 
系统 也 普遍 都 实现 了 虚拟 内 存 技 术 ， 或 者 说 虚拟 分 页 技术 。 
虚拟 分 页 还 可 以 实现 利用 有 限 的 物理 RAM 容 量 ， 承 载 比 实际 
容量 大 得 多 的 虚拟 地 址 空间 。 

另外 ， 可 以 看 到 ， 在 分 页 模式 下 ， 每 个 进程 可 以 独 享 整 
个 线性 地 址 空间 ， 无 人 和 他 抢占 ， 线 性 地 址 此 时 已 经 成 为 一 
个 完全 虚拟 的 地 址 空间 了 ， 那 就 是 说 ， 所 有 进程 的 线性 地 址 
空间 可 以 是 一 模 一 样 的 、 重 又 的 。 既 然 如 此 ， 分 段 机 制 在 分 
页 模式 下 ， 本 身 已 经 毫 无 用 处 了 ， 分 段 与 否 已 经 毫 无 意义 。 
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既然 如 此 ， 操 作 系统 也 就 省 得 麻烦 了 ， 直 接 将 GDT/ 
LDT 中 所 有 的 描述 符 中 的 基地 址 都 设置 为 全 0， 长 度 都 设置 
为 全 F， 这 样 ， 不 管 读 出 了 哪个 描述 符 ， 其 描述 的 都 是 从 0 到 
最 后 一 个 字 节 的 整个 的 线性 地 址 空间 。 这 种 模式 被 称 为 Flat 
Mode。 具 体 使 用 GDT 还 是 LDT， 取 决 于 操作 系统 的 设计 ， 一 
般 来 讲 必用 GDT， 选 用 LDT， 有 些 版 本 的 Linux 操 作 系 统 会 
将 所 有 进程 的 描述 符 统一 放 到 同一 个 LDT 中 。 不 过 ，Linux 和 
Windows 操 作 系 统 中 有 些 描述 符 也 并 非 被 设置 为 Flat 模 式 ， 如 
图 10-14 所 示 ， 左 侧 和 右 侧 分 别 为 Windows ХР SP2 和 Windows 
7 操作 系统 下 的 GDT 中 的 描述 符 一 览 。 
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分 段 + 实地 址 模式 ， 所 见 即 所 得 ， 逻 辑 地 址 直接 映射 到 物理 地 址 
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那么 ， 在 启用 了 分 页 模式 的 场景 下 ，CPU 上 的 
CS/DS 寄 存 器 都 会 被 载 入 什么 值 呢 ? 可 以 说 的 是 
这 几 个 值 其 实 已 经 没什么 意义 了 ， 所 以 目前 的 诸如 
Linux 和 Windows 操 作 系统 ， 各 自 都 是 载 入 固定 的 某 个 
值 。 如 图 10-14 右 侧 所 示 ， 可 以 看 到 Sel 下 方 所 示 的 就 
是 CS/DS 选 择 子 的 值 。 如 图 10-15 所 示 为 Linux 操 作 系 
统 下 的 GDT 布 局 示意 图 。 
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doublefauttT55 | Oxf8 
图 10-15 ”Linux 操 作 系统 下 的 GDT 布 局 


那么 ， 在 分 页 模式 下 ， 系 统 是 如 何 控制 访问 权 
限 的 呢 ? 当前 进程 的 权 级 依然 保存 在 CS 寄存 器 的 前 
2 位 ， 也 就 是 CPL。 其 可 以 访问 的 内 存 区 域 如 何 来 控 
WE? 其 实 ， 仔 细 思 考 可 以 发 现 ， 在 分 页 模式 下 ， 
进程 自然 被 更 加 严密 地 控制 在 它 自己 的 虚拟 地 址 空 
间 中 运行 了 ， 除 非 操作 系统 将 其 他 进程 或 者 系统 内 
核 的 页 面 映射 到 它 的 地 址 空间 中 ， 否 则 它 无 论 如 何 
也 跳 不 出 自己 的 世界 ， 天 然 不 需要 像 3086/80286 那 
样 去 比 对 ， 后 者 由 于 所 有 进程 看 到 的 是 同一 个 共享 
的 地 址 空间 ， 正 因 如 此 ， 才 需要 给 每 个 段 附 以 DPL 
值 ， 以 防止 有 进程 真 的 尝试 载 入 某 个 不 属于 它 的 段 
时 去 做 匹配 判断 ， 是 一 种 完全 被 动 挨打 但 是 可 以 用 
护 甲 来 防御 的 机 制 。 而 在 分 页 模式 下 ， 进 程 彻底 孤 
独 了 ， 但 也 更 加 自在 了 ， 因 为 整个 世界 都 是 它 自己 
的 ， 是 一 种 主动 避让 的 防御 机 制 ， 永 远 打 不 着 别 
人 ， 别 人 也 就 不 用 穿 护 甲 。 
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用 一 张 图 来 梳理 一 下 Flat 分 段 + 分 页 模式 的 地 址 转 
换 全 流程 ， 如 图 10-16 所 示 。 其 中 ，U/S 位 用 于 权限 判 
断 ， 具 体 见 下 一 节 。 


10.1.54 ”分 页 的 控制 参数 


但 是 ， 仍 然 可 以 在 为 每 个 页 面 设置 访问 权限 ， 更 
进一步 控制 进程 对 每 个 页 面 的 访问 行为 。 如 图 10-10 
右上 角 所 示 ， 下 面 来 介绍 一 下 页 表 项 中 除了 页 面 基 地 
址 之 外 的 其 他 属性 。 

了 位， 表示 该 页 存在 Present) 或 者 说 有 效 与 
否 ，P=1 表 示 有 效 ; P=0 表 示 无 效 。 当 操作 系统 为 某 
个 程序 分 配 了 一 个 页 表 后 ， 有 时 候 并 不 会 立即 把 该 页 
表 指 向 的 页 面 全 部 分 配 ， 而 是 只 分 配 一 部 分 ， 或 者 根 
本 不 分 配 页 面 ， 此 时 ， 操 作 系统 会 将 页 表 中 未 指向 任 
何 物理 页 的 条 目的 P 位 设置 为 0，P 为 0 的 页 表 项 的 其 
他 部 分 可 供 操作 系统 使 用 ， 自 行 记 录 一 些 其 他 信息 
如 图 10-10 右 上 角 所 示 的 情况 。 当 某 个 页 面 被 Swap 到 
硬盘 的 Swap 区 (Linux 采 用 一 个 单独 的 硬盘 分 区 作为 
Swap 空 间 ) 或 者 pagefile (Windows 采 用 pagefile 文 件 
充当 Swap 空 间 ) 后 (这 个 过 程 又 被 称 为 Page Ош), 
内 存 管理 程序 会 将 该 页 面 对 应 的 页 表 项 中 的 P 位 置 为 
0 操作 系统 可 以 同时 将 被 Swap 出 去 的 页 面 所 在 的 硬 
盘 扇 区 地 址 写 入 到 该 页 表 项 的 其 他 区 域 以 供 参考 ， 也 
可 以 在 内 存 中 的 其 他 地 方 来 记录 当前 进程 的 地 址 空间 
中 到 底 哪 些 页 面 被 Swap 了 ， 放 在 哪里 ， 只 有 具体 使 用 
什么 方式 ， 完 全 看 操作 系统 的 设计 ) 。 当 程序 访问 这 
些 被 Swap 出 去 的 页 面 时 ，CPU 会 查询 到 对 应 页 表 项 的 
P=0， 于 是 CPU 产 生 缺 页 异常 (Page Fault) ， 跳 转 到 
操作 系统 的 缺 页 管理 程序 运行 ， 操 作 系 统 缺 页 管理 程 
序 首先 检查 该 程序 试图 访问 的 虚拟 地 址 是 否 是 合法 的 
(是 否 已 被 分 配 ) ， 如 果 不 合法 ， 则 操作 系统 进入 异 
常 处 理 流程 ， 如 果 合 法 ， 再 去 检查 对 应 页 面 中 是 否 记 
录 有 Swap 空 间 的 地 址 ， 如 果 没 有 ， 证 明 该 页 面 尚 未 被 
分 配 ， 则 动态 分 配 物理 页 给 该 程序 ， 如 果 有 ， 则 寻找 
空闲 的 物理 页 面 ， 然 后 从 Swap 区 读 出 对 应 页 面 数 据 
填充 到 新 物理 页 中 〈 这 个 过 程 被 称 为 Page In) ， 并 将 
该 物理 页 基地 址 写 入 页 表 中 ， 然 后 重新 返回 用 户 进程 
执行 。 

对 页 面 的 换 入 换 出 有 多 种 不 同 的 策略 和 算法 ， 但 
是 这 些 算法 基本 上 与 6.2.17 节 中 介绍 的 针对 缓存 行 的 
Exi phum #6. 

这 里 需要 注意 一 点 ， 虽 然 在 分 页 模式 下 ， 用 户 
进程 会 看 到 整个 虚拟 地 址 空间 都 是 自己 的 ， 但 是 程序 
却 不 能 在 未 向 操作 系统 申请 内 存 之 前 ， 任 意 访 问 任何 
地 址 ， 如 果 程 序 强行 访问 某 个 未 分 配 地 址 ， 那 么 就 会 
产生 上 述 的 缺 页 异常 ， 因 为 对 应 的 虚拟 地 址 根本 还 尚 
未 被 映射 到 任何 物理 页 面 ， 操 作 系统 会 检查 程序 访问 
的 地 址 是 否 是 已 被 分 配 的 ， 如 没 被 分 配 则 会 报告 异常 
错误 。 这 里 值得 注意 的 是 ， 分 配 了 内 存 和 分 配 了 物理 
页 ， 是 完全 两 码 事 。“ 为 某 程序 分 配 了 内 存 ”， 只 是 
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在 内 存 管理 程序 维护 的 内 存 使 用 情况 记录 表 中 记录 该 
程序 被 分 配 到 的 位 于 该 程序 自身 的 虚拟 地 址 空间 中 的 
地 址 ， 此 时 操作 系统 可 能 根本 没有 对 该 虚拟 地 址 分 配 
物理 地 址 (也 就 是 并 没有 分 配 物理 页 并 将 页 基地 址 写 
入 页 表 项 ) ， 或 者 还 没 来 得 及 分 配 ， 都 有 可 能 。 但 是 
此 时 程序 是 可 以 访问 被 分 配 的 虚拟 地 址 的 ， 当 程序 访 
问 这 些 已 分 配 但 尚未 被 映射 到 物理 页 的 地 址 时 ，CPU 
会 查询 到 对 应 页 表 项 的 P=0， 于 是 CPU 产生 缺 页 异 
常 ， 跳 转 到 操作 系统 的 缺 页 管理 程序 运行 ， 操 作 系统 
缺 页 管理 程序 首先 检查 该 程序 试图 访问 的 虚拟 地 址 是 
合法 ， 由 于 之 前 已 经 分 配 了 对 应 的 虚拟 地 址 ， 所 以 
合法 ， 然 后 操作 系统 再 根据 页 表 项 中 是 否 存 有 Swap 空 
间 的 地 址 来 判断 该 页 是 之 前 被 Swap 出 去 了 呢 ， 还 是 根 
本 尚未 分 配 过 物理 页 ， 然 后 选择 将 数据 Page In 到 物理 
页 面 ， 或 者 新 分 配 物理 页 面 ; 或 者 操作 系统 通过 读 取 
自己 维护 的 数据 结构 来 判断 该 页 面 是 否 已 被 分 配 了 物 
理 页 ， 以 及 是 否 已 经 被 swap 出去， 不同 操作 系统 设计 
不 同 。 

R/W 位 ， 若 为 1， 则 表示 该 页 面 可 以 被 读 、 写 或 
执行 ;为 0 则 表示 页 面 只 读 及 可 执行 。 当 CPU 运行 在 
超级 用 户 特权 级 (Ring0/1/2〉 时 ，R/W 位 不 起 作用 ， 
意味 着 当前 程序 可 以 读 写 任意 页 面 。 页 目录 项 ( 注 
意 ， 不 是 页 表 项 ) 中 的 R/W 位 对 其 所 指向 的 所 有 页 面 
都 有 效力 。 

U/S 位 ， 用 户 /超级 用 户 (User/Supervisor) 标 
志 。 如 果 为 1， 那 么 运行 在 任何 特权 级 上 的 程序 都 可 
以 访问 该 页 面 。 如 果 为 0， 那 么 页 面 只 能 被 运行 在 超 
级 用 户 特权 级 “0、1 或 2》 上 的 程序 访问 。 页 目录 项 
中 的 U/S 位 对 其 所 指向 的 所 有 页 面 都 有 效力 。U/S 位 是 
一 个 非常 关键 的 控制 位 。 在 现代 操作 系统 中 ， 操 作 系 
统 内核 的 数据 结构 和 函数 代码 均 会 被 映射 到 每 个 进程 
的 虚拟 地 址 空间 中 ， 第 5 章 中 的 图 5-81 附 近 介 绍 过 这 
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种 机 制 。 那 么 如 果 处 于 Ring3 的 程序 打算 访问 虚拟 地 
址 空间 中 的 内 核 部 分 ， 此 时 必须 被 禁止 ， 如 何 禁 止 ? 
只 能 靠 CPU 自 己 去 检查 权限 ， 也 就 是 检查 对 应 页 面 的 
U/S 控 制 位 来 判断 了 。 上 文中 提 到 过 位 于 虚拟 地 址 空 
间 中 的 进程 永远 打 不 着 别人 ， 此 处 是 一 个 特例 ， 因 为 
操作 系统 非 要 将 自己 嵌入 到 每 个 进程 的 虚拟 地 址 空间 
中 ， 平 时 又 不 让 碰 ， 只 能 Int 系 统 调用 之 后 才能 碰 
那 就 必须 给 乱入 到 Ring3 空 间 中 这 部 分 区 域 穿 上 护 甲 
了 。CPU 利 用 U/S 位 判断 权限 的 过 程 如 图 10-16 右 上 角 
所 示 。 

A 位 ， 已 被 访问 过 (Accessed) 标志 。 当 CPU 访 
问 页 表 项 所 指向 的 页 面 时 ， 对 应 页 表 表 项 中 的 这 个 标 
志 就 会 被 置 为 1， 该 动作 由 CPU 自动 完成 。 页 目录 项 
中 也 有 该 位 ， 当 CPU 访问 了 某 个 页 目录 中 任何 一 个 表 
项 指向 的 任何 一 个 页 面 时 ， 该 页 目录 表 项 的 这 个 标志 
就 会 被 置 为 1。 该 位 的 主要 作用 是 让 操作 系统 的 内 存 
管理 程序 可 以 随时 统计 每 个 页 面 的 访问 频率 ， 从 而 可 
以 知道 哪些 页 不 经 常 被 访问 ， 然 后 按照 一 定 的 算法 将 
其 Swap 到 外 部 设备 比如 硬盘 上 存放 。 

D 位 ， 页 面 已 被 修改 (Dirty) 标志 。 当 CPU 对 一 
个 页 面 第 一 次 执行 写 操作 时 ， 就 会 自动 设置 对 应 页 


表 表 项 的 D 标 志 。CPU 并 不 会 修改 页 目录 项 中 的 D 标 
志 。 该 标 作用 是 为 操作 系统 内 存 管 理 模块 


提供 参考 ， 当 内 存 管理 程序 决定 将 某 些 页 面 Swap 到 硬 
盘 上 时 ， 只 会 Swap 那 些 Dirty 的 页 面 ， 而 没 Dirty 的 不 
需要 Swap， 可 以 直接 删除 ， 然 后 把 该 进程 对 应 页 表 
中 的 对 应 该 页 面 的 页 表 项 的 P 位 改 为 0， 表 示 该 页 面 已 
经 不 存在 了 。 这 里 可 能 会 产生 疑惑 ， 纵 使 页 面 中 的 数 
据 没有 改变 ， 就 可 以 直接 给 人 家 删 了 么 ?后续 再 访问 
怎么 办 ? 后 续 如 果 再 访问 ， 由 于 对 应 页 表 项 P 位 为 0， 
所 以 CPU 会 产生 Page Fault 中 断 ， 转 为 执行 操作 系统 的 
缺 页 处 理 流程 ， 操 作 系统 会 将 该 程序 对 应 的 这 块 数据 


用 户 虚 拟 空间 中 的 这 块 内 核 区 ， 就 犹如 世外桃源 中 凭空 多 了 一 座 永远 进 不 去 的 阴森 城堡 ， 而 且 一 旦 尝试 
触 碰 ， 自 己 立 即 会 被 温 灭 掉 。 程 序 会 一 直 困 莹 着 ， 里 面 到 底 是 什么 ? 如 图 10-17 所 示 ， 正 如 电影 《 异 次 元 骇 
客 》 中 的 那个 经 典 镜头 一 样 ， 世 界 本 来 好 好 的 ， 直 到 有 一 天 ， 主 角 沿 着 某 条 路 走 到 了 “尽头 ”， 发 现 一 座 空 
气 墙 把 你 挡住 了 ， 墙 后 面 是 还 没有 贴图 的 模型 线 框图 ， 看 来 上 帝 计算 机 中 的 GPU 也 是 有 算 力 上 限 的 。 也 许字 
宙 边 缘 也 有 一 道 无 形 的 墙 ， 就 等 着 你 去 探索 了 。 


图 10-17 电影 《 异 次 元 骇 客 》 中 的 经 典 镜头 
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重新 从 硬盘 上 载 入 内 存 中 新 的 位 置 的 页 面 (操作 系统 
会 记录 每 个 程序 被 载 入 到 虚拟 地 址 空间 中 的 位 置 ， 所 
以 缺 了 哪 一 块 ， 操 作 系 统 了 如 指 掌 ) ， 然 后 将 页 面 基 
地 址 重新 写 入 页 表 ， 然 后 重新 返回 程序 之 前 的 断 点 执 
行 ， 程 序 重新 访 存 ， 获 得 数据 。 当 Dirty 的 页 表 项 指向 
的 页 面 被 内 存 管 理 程序 载 入 了 新 数据 之 后 ， 内 存 管理 
程序 需要 将 该 项 的 Dirty 位 清除 ， 因 为 此 时 这 些 页 面 是 
靳 新 刚 载 入 的 ， 还 未 被 改写 。 
AVL 字 段 ， 该 字段 保留 给 程序 任意 使 用 。 


我 们 梳理 一 下 。 远 辑 地 址 是 指 利用 seg: offi 


述 的 地 址 ， 线 性 地 址 是 逻辑 地 址 经 过 转换 之 后 的 地 
址 ， 在 8086 下 是 seg 左 移 4 位 +offset， 在 80286/80386 


下 是 查询 GDTILDT 来 获得 段 基地 址 ， 然 后 用 段 基地 
址 +off 所 得 。 线 性 地 址 还 需要 被 转换 成 物理 地 址 才 
可 以 最 终 访 存 ， 在 8086 和 80286 下 线性 地 址 直接 等 
于 物理 地 址 ， 而 在 80386 下 如 果 启 用 了 分 页 AE 
Abb ( 此 时 又 被 称 为 虚拟 地 址 ， 因 为 分 页 模式 下 线 
性 地 址 完全 处 在 一 个 虚拟 的 空间 中 ) 需要 再 次 过 一 
遍 页 表 ， 转 搁 成 最 终 的 物理 地 址 访 存 。 


10.1.5.5 MMURITLB 


如 图 10-18 所 示 为 80386 处 理 内 部 架构 示意 图 和 芯 
片 照片 。 可 以 看 到 其 有 两 个 地 址 处 理 单元 ， 一 个 负责 
分 段 ， 另 一 个 负责 分 页 ， 分 段 和 分 页 管理 单元 合 起 来 
又 被 称 为 MMU (Memory Management Unit) 。 
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10-18 80386 处 理 内 部 架构 示意 图 和 芯片 照片 


不 难 发 现 ，CPU 访 问 页 表 拿 到 最 终 的 页 面 基地 址 
的 过 程 ， 要 访问 三 次 内 存 ， 第 一 次 使 用 CR3 中 的 基地 
址 + 线性 地 址 的 页 表 号 索引 来 访 存 ， 拿 到 页 目录 项 ， 
再 用 页 目录 项 中 保存 的 页 表 基 地 址 + 线性 地 址 中 的 页 
面 号 索引 来 访 存 ， 拿 到 页 表 项 ， 再 利用 页 表 项 中 保存 
的 页 面 基 地 址 + 线性 地 址 中 的 页 内 字 节 偏 移 号 来 访 存 
最 终 拿 到 目标 字 节 。 

这 就 有 点 儿 令 人 哭笑不得 了 ， 为 了 一 次 访 存 ， 
先 要 做 三 次 额外 的 访 存 ， 太 慢 了 。 思 考 一 下 ， 如 何 解 
决 这 个 问题 ? 程序 的 访 存 行为 一 般 具有 时 空 局 部 性 ， 
也 就 是 刚才 访问 过 的 地 址 有 很 大 概率 会 在 短 时 间 内 继 
续 高 频 访问 ， 而 且 在 短 时 间 内 也 有 很 大 的 概率 访问 与 
该 地 址 相 邻 的 其 他 地 址 。 很 自然 地 ， 我 们 会 想到 ， 如 
果 设 置 一 个 高 速 缓存 ， 将 之 前 查 出 来 的 页 表 项 缓存 起 
来 ， 下 次 再 遇 到 访 存 请 求 时 ， 直 接 利用 虚拟 地 址 的 页 
表 号 + 页 面 号 作为 关键 字 ， 在 缓存 中 查找 是 否 存在 该 
关键 字 ， 如 命中 ， 则 直接 从 缓存 中 对 应 的 行 读 出 它 
对 应 的 页 表 项 从 而 得 到 页 面 基地 址 ， 不 需要 再 去 页 
表 中 查询 。 该 缓存 被 称 为 TLB (Translation Lookasid 
Buffer) ，TLB 位 于 CPU 内 部 的 MMU 中 。TLB 中 不 仅 
存储 页 面 基地 址 ， 而 是 需要 连 整 个 页 表 项 一 起 保存 
因为 CPU 需 要 判断 页 表 项 中 的 比如 A 位 、D 位 、R/W 
位 等 以 做 出 动作 ， 当 第 一 次 访问 页 面 时 ，CPU 会 自动 
更 新 A 位 ， 其 实 是 更 新 位 于 TLB 中 缓存 着 的 页 表 项 的 
A 位 ， 同 理 ， 如 果 对 页 面 中 的 数据 进行 了 写 入 (Stor 
指令 ) ， 则 CPU 自动 更 新 D 位 ， 当 然 ， 访 存 之 前 还 需 
要 检查 R/W 位 ， 这 些 信 息 都 直接 从 TLB 中 来 读 取 。 那 
么 ， 如 果 TLB Miss 怎 么 办 ? 此 时 必须 访 存 先 拿 到 页 表 
项 ， 将 其 放 入 TLB， 再 执行 后 续 步骤 。 


对 于 Intel CPU ， 其 拿 到 条 目 后 会 自动 放 入 
TLB， 但 是 对 于 MIPS CPU， 它 发 生 TLB Miss 之 后 
就 不 干 活 了 ， 报 一 个 异常 中 断 ， 跳 转 到 TLB Miss 
相关 的 中 断 处 理 函 数 执行 ， 后 者 负责 查询 页 表 ， 然 
后 用 特殊 指令 (tlbwr ) 来 填充 好 TLB， 然 后 继续 执 
行 。 这 个 过 程 也 被 称 为 TLB Refill。 


如 果 操 作 系 统 切 换 了 进程 ， 则 当前 进程 的 页 目录 
也 会 跟着 变 ，TLB 中 之 前 缓存 过 的 条 目 就 会 失效 ， 此 
时 ， 操 作 系统 需要 执行 TLB Flush 操 作 ， 将 TLB 中 的 
条 目 写 回 到 页 表 中 。 这 个 过 程 需 要 执行 特殊 的 指令 ， 
比如 INVLPG 指 令 可 以 实现 有 选择 地 将 对 应 的 条 目 写 
回 页 表 ， 而 如 果 将 一 个 新 页 目录 基地 址 加 载 到 CR3 寄 
存 器 中 ， 则 会 导致 CPU 自 动 将 整个 TLB 中 所 有 条 目 写 
回 页 表 。 如 果 更 改 了 CR4 寄 存 器 也 会 导致 整个 ILB 被 
写 回 。 

如 图 10-19 所 示 为 TLB 作 用 原理 示意 图 ， 可 以 将 
TLB 整 体 存放 在 CAM ( 见 第 1 章 ) 中 ， 这 样 可 以 做 到 
并 行 搜索 ， 提 升 速度 ， 也 可 以 使 用 其 他 模式 。 我 们 在 
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第 6 章 中 介绍 过 缓存 思想 以 及 各 种 缓存 加 速 查找 、 降 
低 成 本 的 方式 。 
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图 10-19 ”TLB 作 用 机 制 示意 图 


提示 > 

Е 前 主流 的 处 理 器 中 都 会 有 iTLB ( Instruction 
ТІВ) 和 dTLB (Data TLB) ， 分 别 与 iCache 和 
dCache 对 应 。 


在 Intel 的 奔腾 等 后 续 的 CPU 中 ， 对 页 表 项 中 的 
属性 部 分 增设 了 几 个 新 属性 ， 比 如 ，G (Global) 位 
用 于 控制 该 页 表 项 当 被 缓存 到 TLB 中 时 ， 是 否 受 TLB 
Flush 的 影响 ， 如 果 G=1， 则 重新 载 入 CR3 寄 存 器 不 会 
导致 该 条 目 被 写 回 页 表 ， 其 会 一 直 待 在 TLB 中 生效 ， 
但 是 重新 载 入 CR4 寄 存 器 ， 则 会 强制 将 所 有 (包括 
G) TLB 条 目 写 回 页 表 。 再 比如 ，PWT (Page Write 
Through) 位 如 果 被 置 1， 则 该 页 表 项 对 应 的 页 面 当 被 
缓存 在 Ll1、L2 等 CPU 内 部 的 数据 缓存 时 ， 一 旦 CPU 写 
入 该 页 面 ， 则 缓存 控制 器 需要 将 数据 同步 写 入 RAM 主 
存 才 算 完成 (这 就 叫 Write Through， 相 对 而 言 ，Write 
Back 则 指 的 是 数据 写 入 缓存 即 宣告 完成 )。 再 比如 ， 
PCD (Page Cache Disabled) 位 如 果 被 置 1， 则 表示 该 
页 面 不 能 被 缓存 到 L1、L2 等 数据 缓存 中 。 

自从 80386 处 理 器 之 后 ， 续 操作 系统 一 直 沿 用 
Flat 段 + 分 页 的 模式 来 管理 内 存 。 值 得 一 提 的 是 ， 开 
启 分 页 模式 之 后 ，CPU 发 出 的 任何 访 存 地 址 都 会 经 过 
MMU+ 页 表 的 翻译 ， 无 法 越过 ， 此 时 如 果 内 核 程 序 需 
要 访问 某 个 物理 地 址 ， 需 要 先 将 其 映射 成 虚拟 地 址 ， 
然后 用 虚拟 地 址 来 访 存 。 


10.1.6 ”DOS 下 的 内 存 管理 


20 世 纪 80 年 代 可 以 说 是 计算 机 行业 的 上 古 时 期 
了 。 上 古 时 期 的 程序 员 们 面临 的 最 大 一 个 问题 就 是 内 
存 不 够 用 的 问题 ， 他 们 千方百计 地 以 KB 为 粒度 来 节 
约 内 存 ， 或 者 从 整个 内 存 区 域 中 榨取 最 后 一 块 可 用 内 
存 以 利用 。 

1980 年 ，IBM 的 PC 使 用 了 Intel 的 8086 和 8088 处 理 
器 ， 其 地 址 线 为 20 位 ， 最 大 可 寻 址 1MB 地 址 空间 。 同 
时 期 ， 微 软 开发 了 DOS (Disk Operating System) 。 
其 运行 在 实 模 式 下 ， 整 个 内 存 布局 如 图 10-20 所 示 。 
这 里 需要 回忆 一 下 前 文中 的 知识 ， 也 就 是 IMB 地 址 
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空间 中 不 仅 包含 DDR RAM， 而 且 包 含 各 种 外 部 IO 设 
备 的 ROM (比如 BIOS ВОМ) 或 者 RAM (比如 显卡 
的 Frame Buffer) 。 至 于 外 部 设备 中 的 寄存 器 ， 当 时 
并 没有 将 它们 映射 到 地 址 空间 中 ， 而 是 单独 设置 了 
一 个 IO 地 址 空间 (CPU 额外 输出 数 根 专门 的 /O 地 址 
线 ) ， 采 用 CPU 的 IN/OUT 指 令 加 WO 地 址 的 方式 来 访 
问 这 些 寄存 器 ， 所 以 这 些 寄 存 器 并 没有 占用 主 地 址 空 
间 。 关 于 IO 地 址 空间 的 更 多 信息 可 以 回顾 图 7-25 下 方 
的 描述 。 
10.1.6.1 常规 内 存 和 上 位 内 存 

微软 在 为 IBM 的 PC 设计 DOS 操 作 系统 时 ， 决 
定 将 1MB 地 址 空间 划分 为 两 部 分 ， 前 640KB 留 给 


DOS 系 统 内 核 和 DOS 程 序 使 用 ， 又 被 称 为 常规 内 存 
(Conventional Memory) 。 其 余 384KB 内 存留 作 其 


他 用 途 ， 又 被 称 为 上 位 内 存 (Upper Memory Area, 
UWA) ， 比 如 其 中 128KB 被 映射 到 显卡 上 的 Frame 
Buffer， 或 者 直接 使 用 RAM 主 存 中 的 一 块 区 域 作为 
FB， 视 硬件 不 同 而 不 同 ， 以 及 主板 的 BIOS ROMA 
被 映射 到 1MB 地 址 空间 的 项 部。 前 640KB 内 存 也 被 称 
为 常规 内 存 或 基本 内 存 ， 早 期 的 DOS 和 DOS 程 序 就 只 
能 在 这 个 范围 内 活动 ，Bill Gates 当 时 很 有 信心 地 说 
640KB 内 存 对 程序 远 远 够 用 了 。 

后 来 ， 电 子 表格 软件 LOTUS 1-2-3 发 布 了 2.0 版 ， 
非常 受 欢迎 。 当 时 386 机 器 刚 出 来 ， 还 没 普及 ， 多 数 
人 还 在 用 8086/88 的 机 器 ， 最 大 1MB 寻 址 空间 的 限制 
导致 该 软件 无 法 获得 足够 的 内 存 。LOTUS 去 找 Intel 和 
Microsoft 一 起 商讨 对 策 ， 随 后 三 者 一 起 制定 了 一 个 内 
存 扩充 方案 : ИМ (分 别 为 三 家 公司 的 首 字母 ， 最 
终 版 是 LIM 4.0。 


扩展 内 存 区 (XMS) 


总 可 寻 址 空间 容量 : 8086 1MB ( 无 扩展 内 存 ) , 80286 
16MB ( 扩展 内 存 15MB ) , 80386 4GB ( 扩展 内 存 46B-1MB ) 


作用 


通过 himem.sys 转 换 成 XMS 内 存 实 现 扩展 内 存 与 常规 内 存 
间 的 数据 转移 
提供 创建 EMS 和 UMB 所 需 的 XMS 内 存 


用 XMS 建 立 RAM 盘 
110000h 安装 CCDOS 汉 字库 
10FFEFh 

隶属 于 扩展 内 存 


高 位 内 存 区 (HMA) 


扩展 内 存 (XMS ) 


通过 himem.sys 和 DOS=HIGH 参 数 存放 部 分 DOS 内 核 


CFFFFh 


Cooooh 
BFFFFh 


A0000h 
9FFFFh 


BIOS ROM 了 映射 区 
. 国定， 不 会 受到 其 他 参数 或 者 DOS 版 本 的 影响 
系统 未 用 区 域 
通过 EMM386.exe 将 XMS 映 射 到 此 处 ， 可 创建 : 
1 MS 内 存 扩充 卡 的 映射 窗口 


Е 
上 位 内 存 UMB 区 域 ， 通 过 DEVICEHIGH 和 LH 
命令 将 设备 驱动 程序 和 常 驻 程序 载 和 UMB 区 域 


BIOS КОМ 
C8000h-CBFFFh : 硬盘 读 写 服务 程序 
C0000h-C3FFFh : 显示 服务 程序 


上 位 内 存 ( ОМА) 384KB 


DOS 暂 驻 区 


用 于 运行 DOS 内 部 命令 | 
当 运 行 较 大 的 用 户 程序 时 刻 能 被 临时 征用 ,结束 | 


时 再 恢复 


* ”用 于 运行 DOS 外 部 命令 和 用 户 程序 
不 够 时 可 征用 DOS 暂 驻 区 的 容量 


ок 


DOS 内 核 常 驻 区 
存放 DOS 内 核 程序 、 内 核 数 据 。 大 小 取决 于 DOS 版 
本 和 config.sys 配 置 文件 中 的 配置 参数 


常规 内 存 640KB 


图 10-20 ”DOS 操作 系统 的 内 存 布 局 


10.1.6.2 EMS 内 存 扩充 卡 


LIM 方 案 的 思路 是 ， 将 最 大 32MB 的 内 存 颗粒 
焊接 到 一 张 TSA 接 口 〈 当 时 流行 的 IO 接口 ， 犹 如 
现在 的 PCIE ) 的 IO 卡 〈 被 称 为 Expanded Memory 
Specification，EMS 卡 ) 上 ， 并 插入 到 系统 中 ， 然 后 
加 载 该 卡 的 驱动 程序 ， 通 过 驱动 程序 可 以 读 写 卡 上 
的 所 有 存储 器 。 在 这 里 不 妨 一 下 第 7 章 中 介绍 过 的 网 
卡 、SAS 卡 等 的 工作 流程 。EMS 卡 的 工作 流程 也 是 类 
似 的 ， 通 过 调用 驱动 程序 提供 的 接口 ， 比 如 告诉 驱动 
“我 要 读 取 卡 上 的 某 地 址 上 的 存储 器 ， 长 度 多 少 ， 读 
出 来 后 放置 到 主 存 的 某 地 址 ”， 驱 动 通过 操纵 卡 上 的 
相关 控制 寄存 器 ， 然 后 卡通 过 DMA 将 数据 写 入 主 存 对 
应 位 置 。 第 7 章 中 介绍 过 ，ISA 和 PCIPCIE 接 口 的 IO 卡 
上 的 存储 器 可 以 被 映射 到 系统 全 局 地 址 空间 ， 从 而 可 
以 被 程序 直接 寻 址 访问 。 但 是 在 8086 时 代 ，1MB 的 地 
址 空间 已 经 非常 紧张 了 ， 已 经 没有 地 方 将 卡 上 的 全 部 
存储 器 容量 映射 进来 。 那 么 ， 用 户 程序 如 何 利用 EMS 
卡 上 的 存储 器 ?此 时 读者 的 脑海 中 应 该 浮现 出 曾经 介 
绍 过 的 两 个 技术 : 缓存 技术 ， 当 缓存 容量 远 小 于 内 存 
容量 的 时 候 ， 是 如 何 用 各 种 优化 手段 和 换 入 换 出 算法 
来 实现 高 缓存 命中 率 的 ; 页 面 Swap 技 术 ， 当 内 存 不 够 
用 的 时 候 ， 内 存 管理 模块 是 如 何在 内 存 和 更 大 容量 的 
硬盘 之 间 通 过 Swap 换 入 换 出 实现 虚拟 内 存 的 。 读 者 会 
发 现 这 些 技术 其 实 本 质 上 都 惊人 的 相似 。 

LIM 方 案 采用 了 一 个 类 似 Page Swap 的 做 法 。 如 图 
10-20 所 示 ， 在 UMA 区 中 ， 有 128KB 的 地 址 段 是 没有 
被 DOS 或 者 程序 使 用 的 ，EMS 卡 的 驱动 程序 将 该 区 域 
中 的 64KB 的 空间 分 成 4 个 16KB 的 页 ， 每 个 页 可 以 映 
射 到 EMS 存 储 器 中 的 某 个 16KB 上 。 比 如 ， 用 户 程序 
要 求 访问 EMS 卡 上 的 第 128 个 16KB， 则 EMS 驱 动 程序 
判断 该 页 面 将 被 映射 到 UMA 中 的 64KB 中 的 哪个 16KB 
页 面 ， 本 例 中 为 第 4 个 页 ， 所 以 EMS 驱 动 从 EMS 卡 中 
读 出 第 128 个 16KB 并 填充 到 UMA 中 的 这 64KB 中 的 最 
后 一 个 16KB 的 页 ， 用 户 程序 就 可 以 访问 了 。 如 果 程 
序 要 再 访问 EMS 卡 上 的 第 124 个 16KB，EMS 驱 动 程序 
首先 判断 其 映射 到 UMA 中 64KB 的 哪个 页 ， 本 例 中 还 
是 第 4 个 页 ， 由 于 UMA 中 的 页 中 的 内 容 是 EMS 上 的 第 
128 个 页 ， 所 以 EMS 驱 动 需要 Swap 该 UMA 中 的 页 的 
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数据 ， 如 果 该 页 已 经 被 改写 ， 则 写 回 EMS 的 第 128 个 
页 ， 如 果 没 有 更 改过 ， 则 直接 删除 ， 然 后 从 EMS 中 读 
出 第 124 个 页 填充 到 UMA 中 的 64KB 中 的 第 4 个 页 ， 供 
程序 访问 。 如 果 程 序 要 访问 EMS 的 第 123 个 页 ， 那 么 
EMS 驱 动 会 将 其 读 出 然后 填充 到 UMA 的 64KB 区 中 的 
第 3 个 页 面 上 ， 此 时 第 3、 第 4 个 页 同时 各 存 有 EMS 上 
的 某 个 16KB 页 ， 同 理 ， 第 1、2 个 页 也 可 以 各 自 再 映 
射 EMS 上 的 某 个 页 。 实 际 上 ，UMA 中 的 这 64KB 相 当 
于 整个 EMS 卡 上 存储 器 的 缓存 ， 其 管理 方式 也 与 第 6 
章 6.2 节 中 类 似 ， 其 利用 的 映射 也 是 相当 于 一 路 组 关联 
方式 ， 而 不 是 任意 直接 映射 ， 因 为 后 者 需要 记录 更 多 
的 元 数据 ， 也 不 利于 快速 查找 。 

这 种 访问 存储 器 的 方式 ， 对 用 户 程序 并 不 透 
明 ， 程 序 需要 自行 记录 自己 将 哪些 数据 放 到 了 EMS 
存储 器 中 的 哪些 地 址 上 ， 并 通过 EMS 了 驱动 程序 提 
供 的 接口 来 调用 后 者 实现 上 述 过 程 ， 很 麻烦 。 如 图 
10-21 所 示 为 过 去 的 2MB 容 量 的 MicroMainframe 的 
5150T 型 号 的 ISA 接 口 的 EMS 卡 〈 左 侧 ) ， 以 及 当 
代 最 新 的 Microsemi 公 司 的 16GB 容 量 的 PCIE 接 口 的 
NVRAM (None-Volatile RAM, ЗЕЯ KERAM, 
其 实 就 是 利用 电容 在 突然 掉 电 后 将 RAM 中 的 数据 
复制 到 板 载 的 NAND Flash 上 ， 图 中 可 以 看 到 Flash 
FE) 卡 实物 图 。5150T 卡 右 下 角 有 个 插 针 式 模 
位 ， 可 以 扩展 一 张 子 卡 ， 从 而 可 以 再 增加 2MB 额 外 
的 存储 器 。 右 侧 所 示 的 Microsemi 的 PCIE NVRAM 
卡 可 以 直接 将 自己 的 16GB 存 储 器 通过 BAR 映 射 到 
系统 全 局 地 址 空间 中 〈 可 以 回顾 第 7 章 PCIE 相 关 章 
节 ) ， 因 为 当代 的 CPU 都 早已 是 64 位 处 理 器 了 ， 地 
址 空间 非常 富余 ， 不 再 需要 像 上 文中 的 上 古 时 代 那 
种 做 法 了 。 

此 处 读者 脑海 里 应 当 复 现 出 一 个 推论 : 如 果 将 
EMS 卡 上 的 RAM 更 换 为 Flash， 甚 至 更 换 为 磁 存 储 比 
如 机 械 硬盘 ， 也 是 没有 问题 的 ， 只 不 过 访问 速度 会 降 
低 。 你 还 可 能 会 继续 联想 : 这 种 做 法 的 本 质 不 就 是 虚 
拟 内 存 的 换 页 技术 么 ， 本 质 上 是 ， 但 是 作用 过 程 稍微 
不 同 。 虚 拟 内 存 技术 中 ，CPU 和 操作 系统 一 起 配合 ， 
采用 页 表 的 方式 来 存放 虚拟 地 址 ， 页 表 承 载 了 整个 程 
序 的 虚拟 地 址 空间 ， 对 程序 是 透明 的 ，CPU 完 成 Page 
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Fault 的 触发 ， 内 存 管理 模块 则 完成 页 面 的 换 入 换 出 ， 
它 俩 共同 在 后 台 自 动 完成 整个 访 存 步骤。 但 是 上 述 
EMS 做 法 并 没有 实现 页 表 ， 程 序 需要 自行 记录 并 要 求 
访问 EMS 的 哪个 页 面 。 


10.1.6.3 上 位 内 存 块 (UMB) 


UMA 中 的 未 使 用 的 128KB 空 间 又 被 称 为 UMB 
CUpper Memory Blocks) ， 这 块 空间 可 以 说 是 整个 
DOS 管 理 的 内 存 空间 中 仅 剩 的 宝贵 净土 ， 其 他 部 分 要 
么 已 经 被 DOS 内 核 和 用 户 程序 代码 所 占用 ， 要 么 就 是 
被 外 部 ROM 或 者 RAM 给 映射 上 去 征用 了 ， 只 有 这 块 
位 置 ，CPU 既 可 以 直接 寻 址 到 〈 这 一 点 非常 珍贵 ， 意 
味 着 程序 可 以 透明 使 用 该 区 域 ， 而 不 用 像 EMS 那 样 麻 
烦 的 方式 ) ， 而 且 又 无 人 使 用 。 

MS-DOS 5.0 版 本 提供 了 一 个 EMM386.exe 程 序 ， 
其 可 以 通过 在 config.sys 配 置 文件 中 的 devicehigh 参 数 
把 光驱 、 声 卡 等 驱动 程序 从 常规 内 存 区 的 内 核 常 驻 区 
中 挪动 〈 重 定向 ， 修 改 程序 中 对 应 的 指针 ) 到 UMB 
区 ， 从 而 扩充 用 户 区 的 可 用 容量 。 该 特性 只 在 80386 
处 理 器 下 支持 。 


10.1.6.4 高 位 内 存 区 (HMA) 


还 记得 前 文中 介绍 过 的 A20 地 址 线 么 ? 如 果 打 
开 A20， 则 在 实 模式 下 ， 程 序 可 以 寻 址 1024k+64k-16 
这 么 多 的 内 存 空 间 ， 可 以 多 榨 出 几 近 64KB 的 可 用 空 
间 (当然 ， 前 提 是 主板 上 安装 的 DDR RAM 必 须 提 供 
足够 的 容量 不过， 一般 安装 1MB 的 物理 RAM 就 可 
以 ， 因 为 CPU 的 1MB 地 址 空间 中 的 一 部 分 会 被 外 部 
ROM/RAM 占 用 ) 。 这 个 额外 榨取 的 区 域 一 般 用 来 存 
放 DOS 的 命令 解释 器 ， 也 就 是 COMMAND.COM (在 
config.sys 配 置 文件 中 通过 dos=high 命 令 控制 ) 的 常 
驻 内 存 部 分 ， 从 而 又 将 常规 内 存 空 出 五 十 多 “KB” 
来 。 这 一 小 块 通过 使 能 A20 地 址 线 榨取 出 来 的 区 域 被 
称 为 高 位 内 存 (High Memory Area, HMA) 。 


10.1.6.5 扩展 内 存 (XMS) 


DOS 是 一 个 实 模式 操作 系统 ， 其 只 能 直接 寻 址 
1MB 的 地 址 空间 。 这 里 有 个 疑问 ，80286 处 理 器 的 
地 址 线 已 经 是 24 根 了 ， 可 以 寻 址 16MB 的 内 存 ， 所 
有 位 于 1MB 以 上 区 域 的 地 址 空间 被 DOS 称 为 EMB 
(Extended Memory Block，DOS 定 义 了 一 系列 扩 
展 内 存 的 规范 和 接口 ， 形 成 了 Extended Мешогу 
Specification，XMS， 所 以 后 来 人 们 将 扩展 内 存 俗 称 
为 XMS) 。 那 么 ， 运 行 在 286 上 的 DOS 即 便 是 实 模 
式 ， 也 应 该 可 以 寻 址 16MB 内 存 才 对 。 但 是 ，80286 以 
及 之 后 的 Intel 处 理 器 强行 被 设计 为 必须 切换 到 保护 模 
式 才能 寻 址 所 有 内 存 ， 运 行 在 实 模式 ， 就 只 能 寻 址 到 
1MB。 当 然 ， 前 文中 也 提 到 过 利用 一 个 技巧 可 以 让 实 
模式 也 寻 址 所 有 内 存 ， 这 个 技巧 非常 有 用 。 

为 了 利用 起 80286 及 后 续 处 理 器 支持 的 更 大 的 寻 


址 空间 ， 程 序 可 以 手动 利用 上 述 技巧 来 实现 ， 但 是 
该 方式 有 个 要 求 ， 就 是 程序 中 不 能 使 用 长 跳 转 (Far 
Jump) ， 因 为 长 跳 转 会 给 出 CS 值 ， 前 文中 提 到 过 ， 
一 旦 给 出 CS 值 ， 由 于 是 处 于 实 模式 运行 ，CPU 会 
将 CS 值 左 移 4 位 然后 写 入 描述 符 副 本 寄存 器 ， 这 样 
就 回 退 回 到 1MB 的 限制 下 。 对 于 这 类 程序 ， 似 乎 只 
有 在 保护 模式 下 才能 访问 扩展 内 存 了 。 但 是 也 不 一 
定 ， 是 否 可 以 这 样 : 程序 将 位 于 常规 内 存 中 临时 不 
用 的 数据 先 挪动 到 扩展 内 存 ， 腾 出 空间 ， 当 需要 用 
到 这 些 数据 时 再 从 扩展 内 存 中 挪动 回来 ， 为 了 访问 
扩展 内 存 ， 程 序 可 以 临时 切换 到 保护 模式 ， 挪 动 完 
数据 后 再 切换 回 实 模式 ， 这 也 不 失 为 一 种 折 中 的 方 
式 。 但 是 如 果 让 每 个 程序 员 都 去 学 习 这 种 操作 ， 成 
本 太 高 。 为 此 ， 微 软 开 发 了 一 个 名 为 himem.sys 的 驱 
动 程序 ， 该 程序 实现 了 上 述 步骤 ， 并 向 外 暴露 对 应 
的 API 供 程序 调用 ， 比 如 程序 可 以 查询 扩展 内 存 的 
剩余 空间 、 申 请 扩展 内 存 、 移 动 数 据 等 。 这 些 接口 
通过 软 中 断 Int 2Fh 的 方式 让 CPU 跳 转 到 himem.sys 注 
册 的 中 断 处 理 函 数 上 ， 在 执行 Int 指 令 之 前 ， 程 序 需 
要 将 相关 参数 写 入 规定 的 AH、AL、AX 寄 存 器 。 微 
软 将 这 套 接口 命名 为 Extended Memory Specification 
(XMS) ， 最 后 版 本 为 3.0 版 。 

如 图 10-22 所 示 为 XMS 接 口 一 览 ， 以 及 himem.sys 
中 对 应 的 一 些 模块 一 览 。Himem.sys 中 也 实现 了 对 A20 
地 址 线 的 控制 ， 并 封装 成 了 对 应 的 API。 这 种 方式 与 
上 文中 介绍 的 EMS 扩 展 卡 方式 本 质 是 一 样 的 ， 只 不 过 
后 者 是 通过 emm386.exe 程 序 来 实现 数据 挪动 ， 而 且 是 
挪动 到 ISA 卡 上 的 RAM 而 不 是 扩展 内 存 中 。 


10.1.6.6 НХМ5ІЯЧЕМ5 


针对 那些 早期 在 8086 平 台 上 使 用 EMS 扩 展 卡 方式 
访 存 的 程序 ， 在 80286/386 推 出 之 后 ， 可 以 不 再 使 用 
EMS 扩 展 卡 了 ， 因 为 此 时 已 经 支持 到 16MB/4GB 主 存 
了 ， 可 以 修改 程序 转 为 使 用 himem.sys 提 供 的 接口 来 享 
受 扩 展 内 存 的 便利 。 然 而 ， 这 些 程序 要 么 就 是 不 再 继 
续 开 发 了 ， 要 么 就 是 开发 者 不 想 再 去 修改 了 ， 为 了 让 
这 些 老 程序 透明 切换 到 扩展 内 存 场景 ，emm386.exe 程 
序 也 做 了 升级 ， 其 不 再 将 UMA 中 的 4X16KB 的 页 面 窗 
口 与 EMS 卡 之 间 相互 Swap Out/In， 而 是 转 为 与 扩展 内 
存 部 分 Swap Out/In， 当 然 ，emm386.exe 程 序 底层 也 是 
依赖 himem.sys 提 供 的 底层 API 来 实现 的 。 此 时 ， 用 户 
程序 依然 认为 它 在 使 用 EMS 扩 充 卡 ， 其 实数 据 是 放 在 
XMS 中 的 。 

实际 上 ，EMS 扩 充 卡 与 UMA 中 的 64KB 映 射 窗口 
之 间 的 Swap In/Out， 也 是 emm386.exe 这 个 程序 负责 
的 ， 其 以 Int 67h 软 中 断 的 方式 向 应 用 程序 提供 接口 。 
emm386.exe 相 当 于 DOS 系 统 下 的 一 个 附加 的 内 存 管 
理 模 块 。 后 来 被 统一 为 DPMI (DOS Protected Mode 
Interface) 标准 ， 该 接口 让 DOS 操 作 系 统 直 接 运 行 在 
保护 模式 下 。 后 来 在 Windows 操 作 系 统 中 运行 的 DOS 


程序 也 是 基于 DPMI 标 准 实现 的 。 再 后 来 ， 就 没有 
DOS 了 ， 全 部 过 渡 到 Windows。 

此 处 建议 再 次 回顾 一 下 图 10-20 中 的 各 个 区 域 ， 
然后 回忆 一 下 每 个 区 域 的 由 来 。 


10.1.7 后 DOS 时 代 x86 内 存 布局 


继 8086/286/386/486 处 理 器 之 后 ，Intel 发 布 了 奔腾 
系列 处 理 器 ， 其 架构 上 有 了 很 大 的 变化 。 与 之 并 行 的 
是 ，BIOS、 外 部 设备 、 内 存 布局 等 各 方面 也 发 生 了 较 
大 变化 ，ACPI 标 准 也 逐渐 成 型 。 而 DOS 此 时 也 已 经 不 
是 主流 的 操作 系统 了 ，Windows、UNIX、Linux 从 此 
开始 了 一 直 延 续 到 当代 的 角逐 。 


10.1.7.1 E820 表 
第 7 章 中 曾经 介绍 过 ， 在 一 些 外 部 组 件 上 ， 比 如 


第 10 章 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 区 可 本 权时 


CPU 内 部 或 者 主板 上 的 桥 芯 片 、BIOS ROM、 各 种 VO 
控制 上 ， 都 会 有 一 些 寄 存 器 或 者 缓冲 区 ， 这 些 存储 器 
都 会 被 映射 到 CPU 的 物理 地 址 空间 ， 然 而 这 些 存储 并 
不 是 DDR RAM 主 存 ， 这 些 存 储 器 也 并 不 能 被 用 来 运 
行 用 户 程序 〈 存 放 用 户 程序 的 代码 ) 。 这 些 存 储 器 形 
成 了 CPU 地 址 空间 中 的 保留 区 域 ， 而 操作 系统 必须 知 
道 这 个 布局 信息 ， 以 确保 进程 页 表 中 不 会 有 任何 物理 
地 址 指向 这 些 特殊 的 存储 器 。 该 信息 通过 由 BIOS 生 
成 的 E820 表 来 展现 ， 如 图 10-23 所 示 。 不 同 的 机 器 、 
不 同 的 内 存 容量 、 不 同 的 BIOS， 会 生成 不 同 的 E820 
表 。 图 中 右 下 角 是 利用 其 他 接口 查询 到 的 信息 ， 可 以 
看 到 每 一 段 地 址 具体 对 应 了 什么 组 件 ， 其 中 可 以 看 
到 “Intel RCBA” 等 字样 ，RCBA 表 示 Root Controller 
Base Register， 也 就 是 CPU 内 部 的 桥 上 的 基地 址 寄 
存 器 。 


Example ( Is an XMS driver installed? ) : 
mov АХ, 4300h 
int 2h 
cmp аувоћ 
jne _ NoXMSDriver 


Examples 
Global Enable A20 (Function 03h): 
ARGS: 

AH = 03h 


AH 寄存 器 值 对 应 的 参数 含义 : 

Oh) Get XMS Version Number 

1h) Request High Memory Area 

2h) Release High Memory Area 

3h) Global Enable A20 

4h) Global Disable A20 

5h) Local Enable A20 

6h) Local Disable A20 

7h) Query A20 

8h) Query Free Extended Memory 

9h) Allocate Extended Memory Block 
АН) Free Extended Memory Block 

Bh) Move Extended Memory Block 
Ch) Lock Extended Memory Block 

Dh) Unlock Extended Memory Block 
Eh) Get Handle Information. 

Fh) Reallocate Extended Memory Block 
10h) Request Upper Memory Block 
11h) Release Upper Memory Block 
12h) Realloc Upper Memory Block 
88h) Query any Free Extended Memory 
89h) Allocate any Extended Memory Block 
ВЕЋ) Get Extended EMB Handle 

ВЕЋ) Realloc any Extended Memory 


图 10-22 


RETS: 
АХ = 0001h if the A20 line is enabled, 
AX = 0000h otherwise 


ERRS 
BL = 80h if the function is not implemented 
BL = 81h if a VDISK device is detected 

BL = 82h if an A20 error occurs. 


Allocate Extended 
ARGS: 
АН = 09h 


Ох = Amount of extended memory being requested іп K-bytes 


RETS: 


АХ = 0001h if the block is allocated, 0000h otherwise 


DX = 16-bit handle to the allocated block 


ERRS: 
BL = ВОВ if the function is not implemented 
1һ if a VDISK device is detected 


if all available extended memory is allocated 
if all available extended memory handles are in use 


Microsoft Confidential 
Copyright (C) Microsoft Corporation 1988-1992 
611 Rights Reserved. 


95,160 


кемісе Drive 


тінен.өзн - . 


Extended Henory Specification Driver - . 


- global equates, macros, structures, opening segment 

= main driver entry, interrupt hooks, а2в/нна Functions 
switching code 

river initialization 

messages for driver initialization 

- extended memory allocation functions 

i hinems_asm ~ menory move Function 


SYS „2.774 - GET R20 MANDLER MUMDER. 
вв 

Эһ if supported 

= A29 handler nunber <value of /BACNINE:nn svitch) 


himem ,sys 提供 的 接口 一 览 以 及 himem.sys 中 对 应 的 一 些 模块 一 览 


Usable : 已 被 映射 到 RAM 且 空闲 ， 可 供 操作 系统 使 用 


Reserved : 被 映射 到 了 PCI/PCIE BAR 空 间或 者 其 他 MMIO/ROM 空 间 . 

П The address range contains system ROM. 

0 The address range contains RAM in use by the ROM. 

О The address range is in use by a memory-mapped system device. 

0 The address range is, for whatever reason, unsuitable for а standard 
device to use as a device memory space. 

0 The address range is within ап МУКАМ device where reads and writes to 
memory locations are no longer successful, that is, the device was worn out 


ACPI data : 已 被 映射 到 RAM 空 间 但 是 被 占用 来 存放 ACPl 表 
ACPI NVS : 映射 到 用 来 存放 ACPl 数 据 的 非 易 失 性 存储 空间 ,操作 系统 不 能 使 用 。 


BIOS-provided physical КАМ та 


р: 
BIOS-e820: 0000000000000000 - 000000000009f800 (usable) 
BIOS-e820: 000000000009f800 - 00000000000a0000 (reserved) 
BIOS-e820: 00000000000са000 - 00000000000cc000 (reserved) 
BIOS-e820: 00000000000dc000 - 0000000000100000 (reserved) 
BIOS-e820: 0000000000100000 - 00000000bfee0000 (usable) 
BIOS-e820: 00000000bfee0000 - 00000000bfeff000 (АСР! data) 
BIOS-e820: 00000000bfeff000 - 00000000bff00000 (ACPI NVS) 
ВІО5-е820: 00000000bff00000 - 00000000c0000000 (usable) 
BIOS-e820: 00000000е0000000 - 00000000f0000000 (reserved) 
ВІО5-е820: 00000000fec00000 - 00000000fec10000 (reserved) 
BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved) 
BIOS-e820: 00000000fffe0000 - 0000000100000000 (reserved) 
BIOS-e820: 0000000100000000 - 0000000240000000 (usable) 


Device(PDRC): Memory32Fixed (ReadWrite, 0хЕ0000000, 0х10000000)// PCI Express 
Device(HPET): Memory32Fixed (ReadWrite, 0xFED00000, 0x400) // HPET 
Device(PDRC): Memory32Fixed (ReadWrite, OXFED10000, 0x8000) // Intel МСН BAR 
Device(PDRC): Memory32Fixed (ReadWrite, OxFED18000, 0x1000) // Intel DMI BAR 
Device(PDRC): Memory32Fixed (ReadWrite, 0xFED19000, 0x1000) // Intel EGP BAR 
Device(PDRC): Memory32Fixed (ReadWrite, OXFED1CO00, 0x4000) // Intel RCBA 
Device(PDRC): Memory32Fixed (ReadWrite, OxFED20000, 0x20000) // Intel TXT 
Device(TPM) : Memory32Fixed (ReadOnly, OxFED40000, 0x5000) // TPM 
Device(PTT) : Memory32Fixed (ReadOnly, OxFED70000, 0x1000) // Intel PTT 
Device(PDRC): Memory32Fixed (ReadOnly, OxFED90000, 0x4000) // Intel VTd 
Device(PDRC): Memory32Fixed (ReadOnly, OxFEE00000, 0х100000) // Local APIC 
Device(FWHD): Memory32Fixed (ReadOnly, 0xFF000000, 0х1000000) // Flash 


10-23 E820% 


及 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


E820 名 称 的 由 来 是 这 样 的 ， 操 作 系统 可 以 使 用 
由 BIOS 提 供 的 int 15h 软 中 断 服务 来 获取 这 张 表 ， 执 行 
这 个 指令 之 前 ， 需 要 将 参数 E820h 放 入 寄存 器 AX 中 ， 
BIOS 的 服务 程序 生成 好 表格 之 后 会 将 表格 的 指针 放 在 
特定 的 寄存 器 中 。 

目前 最 新 的 BIOS 规 范 UEFI 已 经 不 再 使 用 int 方 式 
来 获取 这 个 表 ， 而 是 提供 了 接口 GetMemoryMapO ft 
操作 系统 启动 时 调用 从 而 获取 该 表 ， 表 的 格式 也 发 生 
了 一 些 变化 。 


10.1.7.2 ”物理 地 址 扩展 PAE 


早 在 8086 处 理 器 时 代 ，Intel 就 为 其 设置 了 20 
根 地 址 线 ， 而 内 部 寄存 器 却 是 16 位 宽 的 。 到 了 Intel 
Pentium Pro 处 理 器 时 代 ， 又 搞 了 这 么 一 出 ，32 位 寄 
存 器 +36 位 地 址 线 ， 随 后 AMD 的 Athlon 处 理 器 也 跟着 
这 样 搞 。 这 种 技术 最 终 被 称 为 PAE (Physical Address 


Extension) 。36 根 地 址 线 可 以 寻 址 64GB 的 地 址 空 
间 。 如 果 每 个 页 面 仍 然 为 4KB (212) 大 小 的 话 ， 那 
么 页 表 项 目 中 给 出 的 页 面 基地 址 就 必须 是 (36-12) 
=24 位 了 。 如 图 10-24 右 上 角 所 示 ， 在 32 位 地 址 下 ， 每 
个 页 表 项 或 者 页 目录 项 的 容量 也 为 32 位 〈 无 直接 关 
系 ) ， 其 中 20 位 用 来 描述 基地 址 ， 现 在 需要 24 位 描述 
基地 址 ， 每 个 表 项 尺寸 就 需要 多 4 位 。 

开启 PAE 后 ，Intel 索 性 将 每 个 页 表 项 扩充 到 64 
位 (第 37~64 位 空置 不 用 ) ， 这 样 一 来 ， 页 表 和 页 
目录 中 的 条 目 数量 一 下 子 就 减 半 了 ， 无 法 涵盖 全 部 
4GB 地 址 空间 。 于 是 ， 需 要 扩充 一 下 页 表 的 容量 。 
如 图 10-24 所 示 ， 在 页 目录 的 上 级 再 加 一 级 索引 ， 称 
之 为 Page Directory Pointer Table， 其 只 有 4 项 ， 使 用 
32 位 线性 地 址 的 最 高 2 位 来 索引 。 这 样 就 可 以 维持 
在 每 个 页 表 项 64 位 容量 的 情况 下 依然 可 以 涵盖 4GB 
空间 。 


Linear address: 63 36 35 32 


n 2423 1615 ар = | Т (Енэжшніз8:32 
| | | [ | | 31 12 11 9 8 5 4 3 2 10 
N МУ ~ < = — mBRENEu- м | s ора mm |» 
Š de ü 页 目录 指针 表 项 
page-directory- 
pointer table page directory 63 36 35 32 
Dir.Polnter E өн 页 表 基 地 址 35 ; 32 
: page table 
Dir.Pointer 64 bit PD o 31 12 1 8587 6 5243 2 1 0 
entry entry : 
Dir.Pointer Е 页 大 基地 址 31 : 12 AVL оро | А |Pcp|wr|uss Rw| Р 
entry и $ 页 目录 项 
Dir.Polnter š s 36 35 32 
entry быт š 
= entry Ы gu 页 面 基地 直 35: 32 
31 12 11 9 8 7 6 S5 4 3 2 1 0 
— CR3 
页 而 基地 址 31 : 12 AVL G |PAT| 0 | А | РСМ | 4/5 |Rw| P 
*) 32 bits aligned to а 32-Byte boundary pe 


图 10-24 ”开启 PAE 后 的 页 表 组 织 方式 


Windows XP 系统 可 以 通过 修改 boot.ini 文 件 加 入 
对 应 参数 来 开启 PAE; Windows 7 系统 可 以 在 命令 行 
下 输入 BCDEdit /set PAE forceenable windows 来 打开 
PAE。 具 体 地 ， 操 作 系 统 启动 时 会 将 CR4 寄 存 器 中 的 
第 5 个 位 设置 为 1 来 通告 CPU 使 用 PAE 方 式 查 页 表 并 
寻 址 ， 同 时 操作 系统 要 将 进程 Page Directory Pointer 
Table 的 基地 址 载 入 CR3 寄 存 器 。 

思考 一 下 ， 既 然 程序 代码 中 给 出 的 地 址 都 是 32 
位 的 ， 又 如 何 访问 超过 4GB 的 内 存 呢 ?不 得 不 说 ， 做 
法 与 DOS 时 代 的 EMS 扩 充 内 存 卡 的 方式 如 出 一 斩 。 
程序 需要 主动 使 用 特殊 的 AWE (Address Windowing 
Extension) API 来 实现 页 面 的 换 入 换 出 。 也 正 因 
如 此 ， 导 致 32 位 Linux 的 内 存 布局 中 出 现 了 High 
Memory， 其 作用 就 是 一 个 用 来 映射 高 于 4GB 地 址 空 
间 的 临时 窗口 。 如 图 10-25 所 示 为 SQL Server 数 据 库 软 
件 开启 AWE 选 项 的 示意 图 。 


EL 
ga 22227) 
EN 
EL 

2ER 最小 服务 器 内 存 am) W: 
ET 


图 10-25 SQL Server 中 开启 AWE 


10.1.7.3 ” x86 物理 内 存 布 局 


随 着 处 理 器 处 理 能 力 的 增强 ， 以 及 可 接 入 的 外 部 
设备 的 总 线 类 型 和 数量 的 增多 ，Intel 平 台 推出 了 南北 
桥 芯片 组 (Chipset) 以 将 这 些 外 部 总 线 桥接 到 处 理 
器 的 前 端 总 线 。 和 处 理 器 一 样 ， 这 些 南北 桥 芯片 也 是 
一 代 代 地 更 欠 ， 一 直 演变 到 当代 ， 北 桥 角 色 己 经 彻底 
被 集成 到 了 处 理 器 内 部 ， 仅 保留 了 南 桥 并 扩充 了 南 桥 
上 的 功能 ， 也 就 是 目前 最 新 的 PCH (Platform Control 
Hub) 桥 片 。 这 里 要 深刻 理解 一 点 ， 地 址 映射 是 可 以 
被 配置 的 ，CPU 的 地 址 空间 对 于 操作 系统 和 程序 来 讲 


是 物理 空间 ， 然 而 对 于 主板 、 芯 片 组 等 硬件 而 言 ， 它 又 
成 了 一 个 虚拟 空间 ， 这 个 空间 中 的 某 部 分 被 映射 到 那 块 物 
理 上 的 存储 器 空间 ， 是 可 以 通过 各 种 基地 址 + 长 度 寄存 器 
来 控制 的 。 这 些 内 容 可 以 回顾 第 7 章 相关 章节 。 

每 一 代 芯 片 组 和 处 理 器 ， 对 地 址 空间 的 布局 都 有 
一 些 变更 ， 再 次 强调 ， 地 址 空间 中 不 仅 是 RAM， 还 
有 各 类 桥 上 的 控制 寄存 器 、CPU 内 部 的 一 些 桥 寄 存 器 
〈 原 北桥 遗留 下 的 ) 、 外 部 的 BIOS ROM、PCIE 设 备 
上 的 ROM 和 BAR1 等 ， 这 个 地 址 空间 中 纷乱 复杂 ， 甚 
至 RAM 都 可 能 被 分 成 多 块 分 别 映射 到 不 同 地 址 段 上 。 
本 书 不 打算 详细 介绍 这 块 内 容 ， 读 者 有 兴趣 可 以 下 载 
对 应 的 芯片 组 手册 阅读 。 

在 这 里 只 给 出 一 个 例子 ， 奔 腾 III 处 理 器 
+815E/815SEP 芯 片 组 主板 ， 这 在 过 去 是 主流 配置 。 如 图 
10-26 所 示 为 Intel 81SE 芯 片 组 的 地 址 空间 布局 情况 。 

如 图 10-26 左 侧 所 示 ， 为 了 兼容 早期 的 DOS 系 统 
(兼容 之 前 的 系统 是 Intel 和 微软 一 贯 秉承 的 思路 〉， 
整个 地 址 空间 的 开头 的 1MB 按 照 8086 处 理 器 的 布局 来 
安排 在 这 1MB 的 顶端 64KB 用 作 寻 址 BIOS ROM。 这 
1MB 被 称 为 Low Memory 〈 低 位 内 存 ) 。4GB 处 下 方 会 
有 一 些 PCIE 设 备 的 BAR、BIOS ROM 和 APIC 等 设备 的 
寄存 器 被 映射 在 这 里 ， 这 个 区 段 被 统称 为 PCIE BAR. 
区 。 该 区 段 之 下 一 直到 1MB 之 间 被 称 为 Main Memory 
( 主 内 存 )。 而 由 于 奔腾 Pro 处 理 器 之 后 都 支持 PAE， 
可 以 支持 到 64GB 的 地 址 空间 ，4 一 64GB 区 间 被 称 为 
High Memory (高 位 内 存 ) 。 请 注意 ，Intel 体 系 下 的 
High Memory 与 上 文中 介绍 过 的 打开 A20 地 址 线 产生 的 
额外 64KB-16B 的 空间 虽然 都 被 称 为 High Memory， 但 
是 前 者 是 Intel 体 系 下 的 概念 ， 后 者 是 微软 (DOS) 定义 
的 概念 ， 它 们 指 代 的 事物 也 不 同 。 

PCIE BAR 区 段 的 最 顶端 2MB 区 间 映 射 到 BIOS 
ROM， 处 理 器 第 一 条 指令 也 是 从 这 里 开始 取 。BIOS 
区 下 方 是 Local APICAII/O APIC 中 断 控制 器 对 应 的 
寄存 器 映射 区 (可 回顾 第 7 章 的 MSI-X 中 断 处 理 章 
节 ) 。 再 往 下 一 直到 1MB 处 之 间 的 区 域 全 部 被 映射 到 
DDR RAM， 也 就 是 Main Memory 区 。Main Memory 
区 中 的 HSEG 和 TSEG 区 段 很 特殊 ， 其 虽然 也 被 映射 
到 RAM， 但 是 这 两 个 区 间 是 禁止 操作 系统 访问 的 
(E820 表 中 对 应 属性 为 Reserved) 。 这 两 个 区 间 中 
存放 的 是 SMM (System Management Mode) 的 代码 
和 数据 。SMM 是 一 段 特殊 的 程序 ， 驻 留 在 内 存 中 ， 
靠 CPU 接 收 到 特殊 的 中 断 信 号 (System Management 
Interrupt，SMI) ， 然 后 跳 转 到 SMM 代 码 执行 。 如 果 
说 操作 系统 是 舞台 和 后 勤 组 ， 进 程 是 剧组 ， 线 程 是 一 
出 剧 中 的 每 个 演员 的 话 ， 那 么 SMM 就 是 整个 剧院 的 
维修 队 。 当 剧院 〈 计 算 机 硬件 ， 比 如 电源 、 电 池 等 ) 
REET, MEH, EER. Б8р. RA. KRAL 
都 需要 暂停 执行 ， 相 关 的 寄存 器 被 全 部 保存 到 TSEG/ 
HSEG 中 ， 然 后 执行 SMM 代 码 ，SMM 执 行 结束 后 会 使 
用 RSM (Resume) 指令 触发 CPU 从 TSEG/HSEG 中 恢 
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图 10-26 Intel 奔腾 碟 处 理 器 及 815E 芯 片 组 的 地 址 空间 布局 示意 图 
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复 所 有 寄存 器 ， 继 续 运行 操作 系统 和 用 户 程序 代码 。 
TSEG/HSEG 的 大 小 和 位 置 可 以 通过 修改 桥 片 上 对 应 
的 寄存 器 来 控制 。 

在 1IMB 一 4GB 之 间 ，PCIE BAR、APIC 和 桥 的 寄存 
器 占据 的 空间 与 DRAM 占 据 的 空间 可 能 会 相互 挤占 ， 如 
果 PCIE 设 备 数量 很 少 ， 则 该 区 会 占用 较 少 区 段 ， 如 果 设 
备 过 多 ， 则 允许 继续 向 下 占用 更 大 的 区 段 ， 从 而 挤占 物 
理 RAM 区 段 ， 被 挤占 掉 的 物理 RAM 容 量 可 以 重新 被 映 
射 到 High Memory 区 ， 但 是 就 无 法 被 透明 寻 址 了 ， 必 须 
利用 上 文 所 述 的 AWE 方 式 主动 调 页 。 物 理 RAM 与 PCIE 
BAR 区 段 的 分 界线 被 称 为 TOLUD (Top of Lower Usable 
DRAM) 。 如 果 启 用 了 PAE， 且 有 一 部 分 RAM 容 量 被 映 
射 到 了 High Memory 区 ， 则 这 部 分 RAM 的 最 顶端 被 称 为 
TOUUD (Top of Upper Usable DRAM) 。 

上 述 地 址 空间 的 布局 会 被 描述 在 E820 表 中 ， 供 操 
作 系 统 参考 。 如 图 10-27 所 示 为 一 个 安装 有 128MB 物 
理 RAM 的 机 器 的 E820 表 中 的 布局 示意 图 。 


10.1.8 Linux 下 的 内 存 管 理 


Linux 作 为 一 个 操作 系统 ， 需 要 遵循 上 述 的 物理 
地 址 空间 布局 来 分 配 内存 ， 也 就 是 只 可 以 操作 那些 可 
用 RAM 部 分 。 当 然 ， 操 作 系统 可 以 重新 扫描 PCIE 网 
络 ， 重 新 映射 BAR 到 其 他 地 址 区 间 ， 这 一 点 是 可 以 让 
操作 系统 去 改变 的 ， 而 其 他 的 一 些 比如 桥 片 上 的 寄存 
器 空间 ， 一 般 是 固定 不 变 的 ， 因 为 这 些 地 方 实在 是 太 
敏感 和 关键 了 ， 牵 一 发 动 全 身 。 


10.1.8.1 32 位 Linux 内 存 布局 


先 来 回顾 一 下 第 5 章 5.5.6.3 节 的 图 5-80 附 近 的 内 
容 。 如 图 10-28 所 示 为 进程 在 虚拟 地 址 空间 中 的 数据 
布局 示意 图 。 位 于 低位 区 域 的 是 程序 的 代码 段 (Text 
Segment) 、 数 据 段 (Data Segment) 和 未 初始 化 的 
数据 段 (BSS Segment, block started by symbol) ; 
向 高 位 延伸 依次 为 : 程序 运行 时 动态 申请 的 逐渐 向 
上 增长 的 堆 (Heap) 空间 、 用 于 载 入 动态 共享 库 文 
件 的 内 存 映射 区 《共享 库 文件 被 按照 4k 粒 度 载 入 该 
区 域 ， 相 当 于 把 共享 库 文件 复制 到 该 区 域 ， 这 个 过 
程 被 称 为 “将 文件 mmap 到 内 存 地 址 ”， 下 文中 将 详 
述 。 这 个 区 对 应 的 物理 页 面 可 能 被 多 个 进程 共享 ， 
所 以 又 称 为 共享 区 ) 、 用 于 充当 进程 运行 时 向 下 增 
长 /向 上 收缩 的 栈 空间 的 栈 段 (Stack) 。 最 项 端的 
1GB 虚 拟 空间 被 映射 到 操作 系统 内 核 的 全 部 代码 和 
数据 所 在 的 物理 页 。 

Linux 操 作 系统 运行 在 Flat 分 段 + 分 页 + 保护 模式 
下 。 如 图 10-29 所 示 ， 左 侧 为 进程 的 虚拟 地 址 空间 视 
图 ， 这 也 是 进程 和 程序 员 看 到 的 视图 ; 中 间 为 假想 中 
的 物理 地 址 空间 的 视图 ， 然 而 实际 上 ， 虚 拟 地 址 空间 
可 能 会 被 以 页 为 粒度 散布 在 物理 空间 的 各 处 ， 右 侧 对 
应 了 实际 的 物理 布局 。 


FEC00000 and the Local Unit is at FEE00000. The system BIOS is 
remapped to 1 GB-64 КВ. 

The 639-KB endpoint of the first memory range is also the base 
memory size reported in the BIOS data segment at 40:13. The 
following table shows the memory map of a typical system. 


extended BIOS data area. A 4-MB Linear Frame Buffer (LFB) is based 
Memory-mapped APIC devices are in the system. The I/O Unit is at 


at 12MB. 
The memory hole created by the chip set is from 8 MB to 16 MB. 


This sample address map (for an Intel processor-based system) 
describes a machine that has 128 MB of RAM, 640 KB of base 
The base memory has 639 KB available for the user and 1 KB for an 


memory and 127 MB of extended memory. 


Baseboard RAM relocated above a chip set memory 
Remapped System BIOS at end of address space. 


Chip set memory hole required to support the LFB 
hole. 


Extended memory, which is not limited to the 64-MB 
mapping at 12 MB. 


address range. 
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Memory reserved for use by the BIOS(s). This area 


typically includes the Extended BIOS data area. 


ИО APIC memory mapped IO at FEC00000. 
Local APIC memory mapped 1/О at FEE00000. 


is returned using the INT 12 function. 


System BIOS 


AddressRangeReserved 
AddressRangeReserved 
AddressRangeMemory 
AddressRangeReserved 
AddressRangeReserved 
AddressRangeReserved 
AddressRangeReserved 


639 KB | AddressRangeMemory 
MB 


120 MB | AddressRangeMemory 


1 KB 
7MB 
4KB 
4KB 
64KB 


4 


0000 0000 

0009 ЕС00 

000F 0000 | 64 KB 
0010 0000 

0080 0000 

0100 0000 

FECO 0000 

FEEO 0000 

FFFF 0000 
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如 前 文中 所 述 ， 内 核 会 将 自己 的 代码 和 数据 在 
每 个 进程 虚拟 地 址 空间 中 都 映射 一 份 ， 方 便 进 程 找 
内 核 办 事 ， 所 有 进程 的 页 目录 页 表 、GDT、LDT 等 
内 核 数 据 结构 ， 也 全 都 被 保存 在 内 核 区 段 内 。 在 32 
位 的 Linux 系 统 下 ， 最 大 寻 址 空间 为 4GB，Linux 采 取 
固定 的 方式 ， 将 自身 放 在 每 个 进程 空间 中 的 3 一 4GB 
之 间 的 1GB 区 段 ， 这 就 意味 着 ， 每 个 进程 的 特定 页 
表 中 都 会 存在 指向 上 述 的 同一 个 1GB 的 物理 区 段 的 
页 面条 目 ， 这 些 条 目 被 俗称 为 “内 核 页 表 ”， 更 准 
确 地 说 应 该 是 “每 个 进程 页 表 中 的 指向 内 核 物 理 页 
的 那 部 分 页 表 ”。 而 且 内 核 程序 在 运行 时 ， 代 码 
中 给 出 的 地 址 也 都 是 虚拟 地 址 ， 或 者 说 内 核 虚 拟 地 
址 ， 它 们 也 要 经 过 内 核 页 表 的 转换 ， 成 为 物理 地 址 
去 访 存 。 如 图 10-30 所 示 为 进程 页 表 中 的 内 核 页 表 部 
分 示意 图 。 

仔细 观察 该 图 可 看 出 两 个 事实 : 虚拟 空间 中 的 


— 
each process 


Identical for | 


each process 


brk 
Runtime heap (malloc) 
Uninitialized data (.bss) 
Initialized data (.data) 
0x08048000 (32) | Program text (text) | 
охоо4ооооо (64) = 
° 


内 核 区 域 会 被 整体 映射 到 物理 地 址 空间 中 的 0 一 1GB 
区 (准确 地 说 是 896MB， 见 下 ) ; 当然， 用户 数 据 / 
代码 也 可 以 占用 物理 0 一 1GB 区 间 。 也 就 是 说 ， 假 设 
某 个 内 核 程序 〈 注 意 ， 内 核 程 序 ， 不 是 用 户 程序 ) 运 
行 时 需要 申请 内 存 ， 内 核 的 内 存 管理 模块 会 为 其 在 
当前 进程 的 虚拟 地 址 空间 的 3 一 4GB 区 段 分 配 一 段 虚 
拟 页 面 ， 假 设 为 其 分 配 了 3.5 一 4GB 这 512MB 的 虚拟 
页 面 ， 后 续 该 内 核 程序 会 发 出 针对 这 个 区 段 的 访 存 请 
求 ， 使 用 的 都 是 虚拟 地 址 ， 经 过 MMU 转 换 为 物理 地 
址 访 存 。 在 这 之 前 ， 内 存 管 理 程序 会 为 这 段 虚拟 页 面 
分 配 物 理 页 面 ， 该 512MB 只 能 被 分 配 到 物理 地 址 的 
512MB 一 1GB 这 个 区 间 里 ， 也 就 是 说 内 核 页 表 内 记录 
的 页 面 物理 地 址 指针 的 值 统 一 都 为 : 〈 页 面 虚拟 地 址 
-3G) ， 这 种 映射 方式 也 被 称 为 线性 映射 ， 这 样 做 的 
目的 是 为 了 在 计算 地 址 的 时 候 更 加 简便 ， 而 无 须 去 通 
过 页 表 来 查询 到 物理 地 址 。 那 么 ， 如 果 之 前 有 某 个 用 
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图 10-29 32 位 Linux 操 作 系统 下 内 存 布局 示意 图 
进程 A 页 目录 


进程 A 页 表 


进程 B 页 目录 


进程 B 页 表 


图 10-30 ”进程 页 表 中 的 内 核 页 表 部 分 示意 图 


户 数据 /代码 页 已 经 占用 了 这 上段 物理 地 址 ， 那 么 内 核 就 
不 能 分 配 这 块 空间 ， 只 能 分 配 其 他 可 用 空间 。 所 以 ， 
内 核 其 实 是 先 检查 物理 的 0 一 1GB 内 哪些 空间 可 用 ， 
然后 再 去 分 配给 内 核 程序 使 用 。 用 户 进程 也 可 以 跟 内 
核 抢 占 这 1GB， 但 是 用 户 进 程 不 需要 按照 一 一 映射 的 
方式 来 分 配 。 值 得 一 提 的 是 ， 内 核 代码 /数据 区 是 不 会 
被 Swap 出 去 的 ， 始 终 在 物理 RAM 中 。 


请 注意 ，Linux 只 是 固定 地 占据 了 每 个 进程 虚 
拟 空间 中 的 最 后 1GB， 但 是 这 并 不 意味 着 Linux 运 行 
时 就 一 定 会 占用 1GB 的 物理 内 存 ， 占 用 多 少 是 随时 
变化 的 ， 这 1GB 内 剩余 的 空间 是 可 以 分 配给 用 户 进 
程 的 。 比 如 可 以 只 安装 128MB 内 存 ， 此 时 内 核 和 用 
户 数据 是 争 用 这 128MB 内 存 的 。 


那么 ， 如 果 系统 安装 的 SDRAM 容 量 超过 了 
1GB， 比 如 为 2GB 或 者 更 高 ， 内 核 程 序 看 来 是 无 法 
访问 高 于 1GB 的 物理 内 存 的 ， 这 显然 会 限制 内 核 的 
性 能 和 功能 。 解 决 办 法 ， 看 上 去 可 以 将 内 核 区 在 虚 
拟 地 址 空间 中 的 占用 容量 提升 一 下 ， 没 错 ，Linux 源 
码 在 编译 的 时 候 可 以 指定 对 应 的 选项 ， 编 译 成 占用 
2GB 区 域 ， 与 用 户 进程 对 半分 ， 但 是 这 样 就 会 反 过 
来 限制 用 户 进程 的 可 访问 内 存 容量 。 另 外 一 个 办 法 
是 ， 利 用 类 似 DOS 时 代 的 EMS 内 存 扩充 卡 的 那 种 运 
作 方式 ， 在 虚拟 地 址 空间 中 开 一 个 临时 窗口 ， 利 用 
这 个 窗口 可 以 指向 任何 物理 地 址 ， 但 是 代价 则 是 每 
次 只 能 访问 窗口 这 么 大 小 的 容量 。 这 就 像 从 望远镜 
中 观察 一 样 ， 视 野 很 有 限 ， 但 是 可 以 移动 望远镜 让 
它 指向 其 他 地 方 再 观察 。 

如 图 10-31 所 示 ，32 位 Linux 系 统 的 设计 者 在 1GB 
的 内 核 区 的 最 顶端 征用 了 128MB 来 作为 这 个 窗口 ， 其 
可 以 映射 整个 物理 地 址 空间 的 各 处 ， 而 且 不 再 要 求 线 


启用 PAE 
后 可 访问 


Low Memory 
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性 映射 ， 可 以 以 页 为 粒度 任意 映射 ， 也 就 是 说 可 以 将 
任意 物理 页 面 基 地 址 填 入 到 这 128MB 空 间 对 应 的 页 
表 项 中 。 开 启 了 PAE 之 后 还 可 以 映射 到 超过 4G 以 上 的 
区 域 (需要 使 用 HIGHMEM64G 选 项 重新 编译 Linux 内 
核 ) 。 图 中 所 示 为 三 种 不 同情 况 下 的 布局 示意 图 ， 都 
是 允许 的 。 

这 样 ， 内 核 通过 线性 映射 访问 的 物理 内 存 就 
变 成 了 896MB， 这 段 物理 地 址 区 域 也 被 称 为 Low 
Memory; 其 余 物 理 内 存 区 域 需要 通过 128M 的 窗口 
来 动态 映射 访问 ，896M 之 上 的 物理 地 址 区 域 被 称 
为 High Memory。 可 以 看 到 ，DOS、Intel、Linux 各 
自 都 定义 过 “High Memory” 的 概念 ， 然 而 它们 却 
并 非 相同 的 事物 。 如 果 系 统 安装 的 DRAM 容 量 小 于 
896MB， 那 就 没有 Low 和 High Memory 之 分 了 。 


Windows 没 有 高 端 内 存 的 说 法 ， 它 的 内 核 区 是 
可 以 任意 映射 的 ， 而 且 其 页 表 采 用 自 映 射 机 制 ， 
篇 幅 所 限 不 多 介绍 了 。Windows 可 以 通过 配置 文件 
来 启用 PAE， 或 者 调整 内 核 区 占用 虚拟 地 址 空间 的 
容量 。 


Low Memory 又 被 分 为 两 部 分 : ZONE DMA 
(0—16MB) 和 ZONE_NORMAL (16~896МВ) ， 
前 者 是 为 了 兼容 一 些 古 老 的 IO 设备 而 设立 的 ， 因 为 
这 些 设 备 只 能 读 写 地 址 空间 的 前 16MB， 内 核 必 须 将 
要 传 给 这 些 IO 设 备 的 数据 放置 在 该 区 域 才 可 以 ， 设 
备 也 只 能 向 该 区 域 写 入 数据 。 而 ZONE_HIGHMEM 
区 域 指 的 就 是 896MB 以 上 的 High Memory 区 域 。 

Linux 内 核 为 内 核 程序 提供 各 种 用 于 分 配 内 存 的 
函数 ， 其 中 ，kmalloc() 用 于 分 配 ZONE_NORMAL 区 
的 内 存 ， 其 分 配 的 是 线性 映射 的 物理 区 域 ， 可 以 用 
Той ТОМАХ; vmalloc() 函 数 则 利用 了 


上 Low Memory 


图 10-31 利用 128MB 的 虚拟 地 址 窗口 来 映射 高 端 内 存 


7 思 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


128MB 的 窗口 来 映射 到 任意 物理 区 域 ， 但 是 其 不 保证 
线性 映射 关系 ， 其 分 配 的 内 存 都 位 于 虚拟 地 址 空间 最 
顶端 的 128MB 区 域 ， 其 对 应 的 物理 页 不 一 定 在 哪儿 ， 
也 不 一 定 连续 。 

32 位 系统 处 处 受 限 ， 在 64 位 系统 上 ， 这 些 问题 都 
不 存在 了 ， 因 为 其 整个 地 址 空间 达到 了 EB 级 别 ， 而 目 
前 最 高 端的 服务 器 也 不 过 支持 2TB 左 右 SDRAM。 所 
以 ， 在 64 位 的 虚拟 地 址 世界 中 ， 可 能 永远 也 触 磁 不 到 
世界 尽头 。 


在 64 位 的 Linux 系 统 中 ， 也 并 不 是 使 用 整个 64 位 空 
间 ， 目 前 主流 版 本 只 使 用 40 位 的 物理 地 址 ， 以 及 48 位 
的 虚拟 地 址 空间 。 在 虚拟 地 址 空间 中 ，0x000000000000 
0000 ~0x00007FFFFFFFFFFF 区 段 (256TB 大 小 ) 为 用 户 
进程 空间 ，0xFFFF800000000000 ~ 0xFFFFFFFFFFFFFF 
FF 区 段 (256TB 大 小 ) 表示 内 核 空间 。 而 0x0008000 
000000000 ~ 0xFFFF800000000000 之 间 的 这 一 大 片区 
域 是 空洞 ， 没 有 用 到 。Linux 系 统 下 可 以 使 用 ps aux 
命令 查看 进程 的 内 存 空间 使 用 情况 ; 可 以 使 用 pmap 
命令 查看 进程 在 虚拟 地 址 空间 中 各 部 分 的 详细 布局 
信息 。 


10.1.8.2 ”相关 模块 数据 结构 


内 存 管理 模块 主要 负责 如 下 工作 : 管理 内 核 自 
身 程序 的 内 存 分 配 ( 比 如 kmalloc0 等 函数 以 及 各 种 算 
法 ) 、 管 理 用 户 进程 的 内 存 分 配 (mmap 和 brk 系 统 调 


Structures pgd_t and рта t define an entry of these tables. 


Rb 、 日 常 维护 页 表 〈 比 如 统计 访问 和 未 访问 过 的 
页 面 、 统 计 脏 页 面 等 ) 、Swap 换 入 换 出 过 程 、Page 
Fault 中 断 处 理 、TLB 缓 存 的 管理 〈 比 如 在 切换 CR3 寄 
存 器 前 Flush/Write Back 缓 存 条 目 等 ) 。 主 要 管理 模块 
可 以 分 为 : 负责 空间 管理 和 页 面 分 配 回收 等 机 制 的 核 
心 管理 模块 、 负 责 页 面 换 入 换 出 的 Swap 管 理 模块 、 负 
责 Page Fault 处 理 的 请 求 调 页 模块 、 负 责 页 面 映射 和 地 
址 转换 的 mmap 模 块 。 

为 了 完成 上 述 管理 ， 内 存 管理 模块 需要 记录 大 量 
的 元 数据 (Metadata) 来 追踪 各 种 状态 ， 页 表 自 不 用 
说 。 如 图 10-32 所 示 为 部 分 操作 页 表 / 页 目录 的 函数 ， 
这 些 函数 位 于 虚拟 地 址 空间 中 的 高 位 内 核 区 ， 只 能 供 
内 核 态 程序 调用 。 还 有 更 多 其 他 关键 函数 读者 可 以 自 
行 了 解 。 

其 他 一 些 关 键 数据 接口 ， 比 如 记录 每 个 物理 页 
面 信息 的 struct page{ }， 将 每 个 物理 页 面 对 应 的 struct 
разе{ } 打 包 成 的 数组 mem_map[ |: 用 于 描述 不 同 
ZONE ( 见 上 文 ) 信息 的 struct zone{ }; 用 于 描述 每 个 
进程 的 内 存 情况 的 总 入 口 结构 体 struct mm struet( }; 
医 套 在 mm_struct 中 的 用 于 描述 进程 虚拟 地 址 空间 布局 
状况 的 struct vm_area_struct{ } 等 ， 如 图 10-33 所 示 。 

每 个 进程 都 有 各 自 独立 的 页 目录 ， 页 目录 的 基 
地 址 会 被 存 入 用 于 追踪 各 个 进程 状态 的 数据 结构 中 
(task struct.(struct mm struct)mm-»pgd) ， 当 系统 进 
行进 程 切换 时 〔 进 程 调度 过 程 被 封装 到 schedule() 函 
数 中 ) ， 就 将 目标 进程 的 页 目录 基地 址 转换 为 物理 
地 址 ， 然 后 写 入 CR3 寄 存 器 (这 一 步 被 封装 到 switch_ 
mm 函数 中 ) ， 从 而 实现 页 表 切 换 ， 如 图 10-34 所 示 。 


pgd_alloc_alloc()/pgd_free() to allocate and free a page for the page directory 

рта аПос()рта alloc, kernel()/pmd free()pmd. free, kernel() allocate and free a page middle directory in user and kernel segments. 
pgd set()pgd clear()/pmd set()pmd clear() set and clear a entry of their tables. 

pgd present()/pmd present() checks for presence of what the entries are pointing to. 

рда page()/pmd. page() returns the base address of the page to which the entry is pointing 


mk. pte(), Pte, clear(), set. pte() 

pte. mkclean(), pte. mkdirty(), pt. mkread(), .... 

pte. none() (check whether entry is set) 

pte. page() (returns address of page) 

pte. dirty(), pte. present(), pte. young(), pte. read(), pte. write() 


图 10-32 ”操作 页 表 / 页 目录 的 部 分 函数 


struct mm. struct ( 
int count; // no. of processes sharing this descriptor 
рад t*pgd; //page directory ptr 
unsigned long start, code, end, code; 
unsigned long start. data, елд data; 
unsigned long start. brk, brk; 
unsigned long start stack; 
unsigned long arg. start, arg. end, env. start, елу. end; 
unsigned long rss; // no. of pages resident in memory 
unsigned long total vm; // total # of bytes in this address space 
unsigned long locked vm; // # of bytes locked in memory 
unsigned long def. flags; // status to use when mem regions are 
created 
struct vm, area. struct “ттар; // ptr to first region desc. 


struct vm area struct “ттар, avl; // faster search of region desc. 


typedef struct page ( 
struct page *prev, *next; // doubly linked 
struct inode “inode; unsigned long offset; // where to 
Swap 
struct page *prev. hash, next, hash; // in hash list of 
pages in page cache. 
atomic, t count; // number of users of this page 
unsigned dirty:16, age:8; 
struct buffer, head * buffers; // if it is part of a block 
buffer 
unsigned long map, nr; // frame # 
struct wait queue *wait; // Tasks waiting for page to Бе 
unlocked 
unsigned flags: 

) тет map 7; 


10-33 mm_struct 以 及 page 结 构 体 
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struct vm area struct ( Struct vm. operations struct ( 
struct mm, struct “ут mm; // descriptor of VAS void (*open)(struct vm area struct *); 
unsigned long vm. start, vm. end; // of this region void (*close)(struct vm area struct *); 
pgprot_t vm, page, prot; // protection attributes for this void (*unmap)(...); 
region void (*protect)(..) 
Short vm avl height; void (*зупс)(...); 
struct vm avl. left; unsigned long (*nopage)(struct vm. area struct *, unsigned long 


vm. area struct “ут avl permission; // right hand child address, unsigned long page, int write access); 
vm. area, struct * vm, next, share, “үт, prev, share; // void (*swapout)(struct vm area, struct *, unsigned long, pte t *); 
doubly linked pte. t (*swapin)(struct vm. area struct x , unsigned long, unsigned long); 


vm. operations, struct *vm ops: 

struct inode *vm_inode; // of file mapped, or NULL = 
"anonymous mapping 

учма long vm. offset; // offset in file/device 


图 10-34 mm area ѕітисі &vm operations struct£ М 


如 图 10-35 和 图 10-36 所 示 为 一 些 关键 数据 结构 的 
关系 和 指向 示意 图 。 可 以 看 到 在 进程 的 task_struct 结 
构 体 中 含有 mm_struct 结 构 体 ， 该 结构 体 中 又 包含 多 个 
指针 用 于 记录 代码 段 、 数 据 段 、 堆 和 栈 的 起 始 和 结束 
位 置 ， 内 存 映 射 区 的 起 始 位 置 等 ， 以 及 包含 vm_area_ 
struct 这 个 用 于 记录 进程 所 占用 虚拟 地 址 空间 的 整体 
布局 的 关键 结构 体 ， 如 图 10-35、 如 10-36 右 侧 所 示 ， 


start stack 


we 


start code 


进程 在 虚拟 地 址 空间 内 的 布局 可 能 是 不 连续 的 ， 所 以 
使 用 每 个 该 结构 体 描述 一 段 虚拟 地 址 空间 ， 多 个 结构 
体 组 成 链表 从 而 将 这 些 虚拟 地 址 段 串 起 来 从 而 描述 某 
个 进程 占用 的 全 部 虚拟 地 址 空间 情况 。 图 10-35、 图 
10-36 中 可 以 看 到 file-backed 以 及 anonymous 两 种 映射 
区 ， 下 一 节 中 将 详细 介绍 mmap 的 机 制 。 


enimse. 


图 10-35 “一些 关 键 数据 结构 的 关系 和 指向 O) 


—-----» vm end: first address outside virtual memory area 
— e уп start: first address within virtual memory area 


vm next 


жыл Size: 20KB. 
ехевавзево. А d 
zi Rss: 12KB 


图 10-36 “一些 关键 数据 结构 的 关系 和 指向 (2) 


大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


如 图 10-37 所 示 为 Linux 内 核 内 存 管 理 关 键 数据 结 
构 关 系 一 览 。 内 存 管 理 模块 就 是 按照 这 些 表格 以 及 
表 中 的 各 种 指针 ， 来 按 图 索 双 了 解 系统 当前 的 内 存 
状况 ， 以 及 每 个 进程 的 内 存 布局 ， 从 而 做 出 管理 动 
作 的 。 右 下 角 的 slab 内 存 分 配 机制 会 在 10.1.8.5 节 中 介 
绍 。 其 他 内 存 管理 方面 的 数据 结构 还 有 很 多 ， 篇 幅 所 
限 ， 读 者 可 自行 了 解 。 


10.1.8.3 brk 和 mmap 系 统 调用 


管理 内 存 是 操作 系统 内 核 的 事情 ， 用 户 态 程序 只 
能 去 申请 分 配 内 存 〈 调 用 brkO 函 数 ) 或 者 要 求 内 核对 
某 个 虚拟 地 址 段 进行 映射 操作 (调用 mmap() 函 数 ， 
也 相当 于 申请 了 内 存 ) 。 程 序 被 载 入 之 后 ，Loader 会 
根据 exe 文 件 头 部 所 声明 的 信息 计算 出 其 占用 的 静态 
内 存 空间 ， 比 如 代码 段 和 数据 段 ， 当 程序 运行 时 ， 如 
果 需 要 更 多 的 内 存 ， 它 并 不 能 直接 就 去 访问 虚拟 地 址 
空间 中 的 其 他 地 址 ， 如 果 强 行 访问 ， 产 生 Page Fault 
之 后 ， 操 作 系 统 内 核 会 判断 该 目标 地 址 是 否 落 入 已 经 
被 分 配 的 区 域 ( 通 过 find_vma() 函 数 判 断 是 否 落 入 了 


某 个 已 分 配 的 vma) ， 若 没有 ， 则 产生 异常 。 程 序 必 
须 通知 内 核 申 请 对 应 数量 的 内 存 。 前 文中 提 到 过 ， 用 
户 态 与 内 核 态 之 间 的 通知 接口 ， 就 是 系统 调用 ， 在 32 
位 CPU 上 采用 Int 指 令 实 现 ， 也 就 是 软 中 断 指令 ， 需 要 
把 中 断 号 80 以 及 其 他 参数 放 入 对 应 的 寄存 器 中 ， 在 64 
位 处 理 器 时 系统 调用 指令 被 独立 出 来 变 为 sysenter 或 
syscall 指 令 ， 具 体 大 家 可 以 自行 查阅 。 

用 户 程 序 申请 内 存 只 能 使 用 brk 或 者 mmap 这 两 个 
系统 调用 ， 对 应 的 Int/sysenter/syscall 指 令 被 写成 汇编 
语言 ， 然 后 封装 到 brkO0 和 mmapO 函 数 中 ， 这 些 函 数位 
于 标准 C 语 言 运行 库 中 ， 比 如 Linux 下 的 libe.so 动 态 共 
享 库 文件 中 ， 供 用 户 态 程序 调用 。 

brk() 函 数 的 机 制 其 实 就 是 直接 改变 进程 的 堆 空 
间 的 高 位 截止 地 址 〈 如 图 10-28 所 示 的 start_brk 和 brk 位 
置 ) ， 将 其 直接 抬升 或 者 降低 到 某 个 地 址 ， 直 接 扩大 或 
者 缩小 堆 空间 。 当 然 ，brk0 函 数 进行 了 brk 系 统 调用 进 
入 内 核 态 之 后 ， 内 核 会 执行 sys_brkO 内 核 函数 进行 后 
续 处 理 。brk 就 是 Break (切断) 的 缩写 ， 其 含义 也 是 
直接 设置 堆 的 截断 地 址 从 而 改变 堆 大 小 。brk() 的 定 
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图 10-37 Linux 内 核 内 存 管理 关键 数据 结构 关系 一 览 


义 为 int brk(void * 扒 高 位 虚拟 地 址 指针 )， 其 只 有 一 个 
参数 。 

如 图 10-38 所 示 为 利用 brkO 扩 大 堆 空间 的 过 程 示 
意图 。 如 果 要 扩大 堆 空间 ， 当 调用 brk 完 毕 之 后 ， 内 
核 只 是 将 mm_struct 表 格 中 的 brk 字 段 更 新 为 新 值 ， 
但 是 并 不 会 将 物理 页 映射 到 扩大 区 域 的 虚拟 页 上 ， 
而 是 等 待 程序 访问 这 些 区 域 时 ， 产 生 Page Fault， 然 
后 进入 内 核 内 存 分 配 模块 进行 映射 操作 ， 这 种 Lazy 
Allocation 是 内 核 内 存 管理 方面 的 惯用 手段 ， 包 括 
Linux 和 Windows 内 核 ， 所 以 在 操作 系统 的 一 些 统计 
信息 中 显示 的 进程 对 虚拟 空间 的 占用 量 一 般 都 是 小 
于 对 物理 内 存 占用 量 的 ， 要 么 其 还 未 访问 过 这 些 内 
存 ， 要 么 就 是 被 Swap 出 去 了 。 这 样 做 的 目的 是 为 了 
充分 节约 内 存 ， 因 为 有 些 程序 申请 了 内 存 之 后 并 不 是 
立即 就 使 用 的 ， 使 用 了 也 不 会 用 完全 部 ， 而 带 来 的 代 
价 则 是 第 一 次 访问 这 些 区 域 时 的 访 存 速度 会 变 慢 ， 但 
是 再 次 访问 时 就 没有 差异 了 。brk 系 统 调 用 还 被 封装 
成 了 sbrk() 函 数 ， 其 并 非 像 brk0 一 样 将 brk 位 置 设置 为 
所 给 出 的 绝对 位 置 ， 而 是 将 brk 位 置 从 当前 点 向 上 或 
者 向 下 移动 对 应 的 距离 ， 也 就 是 说 ， 该 函数 的 参数 为 
一 个 相对 距离 值 ， 其 底层 实现 基本 上 是 先 得 出 当前 的 
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brk 位 置 〈《 利 用 无 参数 的 brkO 调 用 ) ， 然 后 用 参数 与 
当前 位 置 算出 绝对 位 置 ， 然 后 再 利用 brk 系 统 调用 设 
置 绝对 位 置 。 

mmap() 函 数 封装 了 mmap 系 统 调 用 。 该 系统 调用 
的 机 制 比较 特别 ， 其 可 以 将 一 个 文件 系统 中 的 文件 
中 的 内 容 直 接 映射 到 相应 的 物理 页 中 如 图 10-39 所 
RD ， 这 样 ， 程 序 使 用 访 存 方式 访问 对 应 物理 页 ， 便 
可 以 访问 到 该 文件 对 应 位 置 的 数据 。 其 具体 机 制 是 ， 
当 程 序 访问 对 应 虚拟 页 面 时 产生 Page Fault 进 入 内 核 
调 页 流程 ， 过 程 中 会 判断 该 区 域 是 否 为 File-Backed， 
也 就 是 是 否 被 映射 到 了 某 个 文件 ， 如 果 是 ， 则 内 核 读 
出 文件 中 对 应 的 4KB 数 据 填充 到 分 配 好 的 物理 页 中 ， 
返回 用 户 进程 继续 执行 ， 从 而 让 进程 访问 到 对 应 的 数 
据 。 用 这 种 方式 可 以 作为 一 个 快速 访问 文件 的 方法 ， 
相 比 调用 read()、write() 等 UO 函数 来 讲 ， 速 度 会 有 所 
提升 。 如 图 10-39 右 侧 所 示 ， 利 用 mmap 方 式 可 以 让 
两 个 进程 相互 沟通 ， 比 如 进程 A 写 入 内 容 到 文件 中 某 
处 ， 进 程 B 读 出 文件 ， 利 用 文件 作为 中 转 站 ， 虽 然 两 
个 进程 之 间 无 法 直接 访问 对 方 内 存 空间 ， 但 是 可 以 共 
享 访问 该 文件 。 当 然 ， 由 于 是 共享 访问 ， 所 以 需要 一 
些 同 步 机 制 ， 比 如 互 斥 锁 等 〈 见 第 6 章 ) o 


2. brk() enlarges heap МА. 
New pages are not mapped onto physical memory. 


Size: 16KB 


4. Kernel assigns page frame to process, 
creates PTE, resumes execution. Program is 
unaware anything happened. 


Е 


Size: 16KB 


10-38 ”利用 brk0 扩 大 堆 空间 的 过 程 示意 图 


void *mmaptvoid *start, size t length, int prot, int flags, int fd, off t offset); 
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图 10-39 mmap 原 理 示 意图 
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第 10 章 “计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 [CR 有 生 和 


采用 mmap 方 式 写 入 文件 内 容 
时 ， 这 些 内 容 变 更 并 不 会 立即 被 
写 入 到 硬盘 文件 中 ， 但 是 在 调用 
munmap() 取 消 映射 时 内 核 会 自动 
进行 写 回 。 如 果 想 主动 触发 写 回 
动作 ， 可 以 调用 int msync ( void * 
addr , size t len, int flags) 将 内 存 
中 的 数据 Flush 到 硬盘 文件 中 ， 该 
函数 内 部 也 是 封装 了 一 个 用 于 将 
内 存 中 的 脏 数 据 写 回 硬盘 的 系统 
调用 。 

外 部 VO 设备 上 的 存储 器 空间 
(比如 PCIE 设 备 上 的 BAR 空 间 ) 
也 可 以 被 映射 到 用 户 虚拟 地 址 空 
间 ， 直 接 将 BAR 被 分 配 的 物理 地 
址 填 入 到 进程 页 表 项 中 即 可 完成 
映射 ， 但 是 这 个 过 程 必须 由 内 核 
来 做 ， 向 外 提供 接口 。 上 文中 说 
过 mmap 是 将 文件 映射 到 虚拟 地 址 
空间 ， 靠 Page Fault 来 将 文件 内 容 
填充 到 物理 页 。 

其 实 ，mmap 不 但 可 以 映射 常 
规 文件 ， 也 可 以 映射 设备 文件 。 
在 Linux 操 作 系统 下 ， 外 部 设备 
也 像 文件 一 样 被 操作 ， 由 设备 驱 
动 或 者 协议 栈 提供 的 接口 函数 来 
承接 这 些 操作 。 但 是 设备 文件 自 
身 并 不 承载 数据 ， 它 不 是 常规 文 
件 ， 所 以 设备 驱动 必须 注册 自己 
的 mmap 承 接 函 数 ， 并 在 函数 中 
实现 物理 页 映射 操作 ， 相 比 之 
下 ， 常 规 文件 的 mmap 承 接 动 作 
则 是 真 的 去 读 出 文件 内 容 填充 到 % 
物理 页 。 如 图 10-41 所 示 为 一 块 
PCIE NVRAM 卡 〈 卡 上 有 16GB 
的 DDR SDRAM 空 间 被 暴露 到 
ВАКФ) 上 的 存储 器 空间 被 映 
射 到 用 户 进程 虚拟 地 址 空间 的 过 
程 示意 图 。 

如 果 在 mmap() 参 数 中 给 出 
MAP_ANONYMOUS 标 志 ， 并 
且 将 文件 名 参数 设置 为 -1， 比 
如 p_map = (char *)mmap(NULL, 
BUF SIZE, PROT READ | PROT - 
WRITE, MAP ANONYMOUS, -1, 
0), JHilmmapO//z f) fT AH E: 
在 内 核 数 据 结构 中 分 配对 应 长 度 
的 vma， 但 是 并 不 与 任何 文件 关 
联 。 当 用 户 进程 访问 对 应 vma 区 段 
时 ， 产 生 Page Fault， 内 核 内 存 管 


p ) 调 用 NVMe 驱 动 提供 的 接口 查询 该 设备 的 BAR 
行 库 mmap( ) ,将 /dewnvram 这 个 “文件 ”中 的 对 应 物理 地 址 区 段 映射 到 给 定 的 虚拟 地 址 区 段 


->vm_page_prot) ) 


加 载 该 设备 的 字符 设 
备 驱动 程序 ,注册 
mmap 回 调 函 数 


生成 字符 设备 文件 


> 
p(struct file "Тр, struct vm area struct *vma) ( 


/dev/nvram 
nvram mma 


> 


， 后 者 直接 将 对 应 的 物理 页 面 映射 到 当前 进程 的 虚拟 页 面 中 ， 实 现 mmap。 


return -ЕАСА!М; 


return 0; 


} 


if (remap ріп range( vma, vma->vm_start, vma-»vm pgoff, vma- 
»vm end - vma-»vm start, vma 


加 载 该 设备 的 NVMe 
设备 驱动 程序 ,提供 
查询 设备 信息 的 接口 
生成 块 设备 文件 : 
static int nvram mma 


/dev/nvme1 


言 运 


‚ 然后 调用 C 语 


图 10-41 PCIE NVRAM 卡 上 的 存储 器 空间 被 映射 到 用 户 进程 虚拟 地 址 空间 的 过 程 示意 图 


被 OS 内核 PCIE 管 
理 模 块 分 配对 应 
物理 地 址 


5 
Е 
Е 


THIS MODULE, 
nvram open, 
.release = nvram close, 
= nvram | 


暴露 数 十 GB 的 
存储 器 ( BAR ) 


.Owner 
open 
ттар 


内 核 中 的 内 存 管理 模块 中 的 负责 mmap 的 子 模块 通过 /dev/nvram 当 时 注册 的 .mmap = пугат птар 3% , ЗА пугат_ mmap() ,并 将 对 应 参数 传递 给 该 


函数 。 该 函数 根据 参数 ， 调 用 内 核 提 供 的 remap_pfn_range 函 数 


比如 将 offset 填 入 vma->vm_pgoff ,等 等 。 


被 映射 到 的 物理 基地 址 以 及 长 度 作为 参数 
e 内 核 中 的 内 存 管理 模块 中 的 负责 mmap 的 子 模块 先 为 该 进程 分 配 一 个 struct vm area struct *vma , 将 mmap( ) 调 用 给 出 的 参数 填 入 vma 结 构 体 中 对 应 项 目 , 


static struct file operations nvram chrdev fops - ( 


y 


Ф 用 户 程序 调用 该 设备 提供 的 运行 库 nvram_mmap( ) 将 设备 上 的 存储 器 映射 到 进程 虚拟 空间 , 


前 的 空间 ,那么 多 出 来 地 址 空间 中 


TO 习 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


理 模块 将 只 为 其 分 配 物理 内 存 页 面 ， 而 不 填充 任何 内 
容 。 所 以 ， 用 户 进程 除了 使 用 brk0) 来 申请 内 存 之 外 ， 
还 可 以 使 用 mmap() 来 申请 ， 前 者 分 配 的 内 存 位 于 堆 
中 ， 而 后 者 则 位 于 映射 区 。 

上 述 这 种 映射 方式 被 称 为 匿名 映射 ， 而 映射 到 常 
规 文件 内 容 或 者 映射 到 设备 文件 表示 的 设备 上 的 存储 
器 时 ， 则 被 称 为 file-backed 映 射 。 上 文中 提 到 的 利用 
文件 作为 集散 地 实现 进程 间 通 信 ， 其 效率 很 低 ， 因 为 
每 次 通信 都 需要 读 写 文件 ， 速 度 较 慢 。 如 果 使 用 匿名 
映射 方式 直接 映射 到 物理 RAM 页 面 ， 则 读 写 的 是 物理 
RAM 而 不 是 文件 ， 速 度 就 快 了 。 


在 32 位 时 代 ， 地 址 空间 非常 局 限 和 紧凑 ， 以 至 
于 出 现 各 种 不 得 已 的 解决 办 法 比如 high memory 等 ， 
令 人 眼花 综 乱 。 在 32 位 Linux 操 作 系 统 下 ，brk() 最 
多 可 将 堆 空间 扩展 到 八 百 多 MB 之 后 就 不 能 再 往 高 
位 扩展 了 ， 因 为 Linux 系 统 会 将 程序 使 用 的 共享 库 
比如 libc.so 文 件 装 入 到 mmap 映 射 区 中 ， 而 800MB 
左右 的 位 置 就 是 libe.so 文 件 被 映射 到 的 位 置 ， 所 以 
无 法 再 往 上 增长 。 不 过 进程 可 以 使 用 mmap() 来 申请 
位 于 映射 区 的 内 存 。 到 了 64 位 时 代 ， 这 些 限 制 都 没 
有 了 ， 堆 空间 和 mmap 映 射 区 已 经 没有 了 界限 ， 它 
俩 其 实 是 同一 个 空间 ， 被 统称 为 堆 。 对 于 mmap 申 
请 的 匿名 内 存 ， 内 核 会 提前 将 对 应 的 物理 页 初始 化 
( 写 入 全 0 ) ，brk 申 请 的 区 域 不 会 被 初始 化 。brk 和 
mmap 申 请 内 存 的 过 程 和 使 用 上 的 更 多 区 别 大 家 可 
以 自行 了 解 ， 篇 幅 所 限 不 再 过 多 描述 。 


看 上 去 brkO 和 mmap() 已 经 比较 易 用 了 ， 但 是 并 
不 是 非常 易 用 。 最 易 用 的 方式 是 : 我 需要 分 配 128KB 
内 存 ， 分 好 了 给 你 指针 ! 而 bk 和 mmap 是 做 不 到 如 此 
易 用 的 ， 比 如 brk 需 要 程序 员 明 确 给 出 堆 顶 的 地 址 ， 
而 程序 员 哪儿 有 工夫 记 住 当前 的 堆 顶 在 哪里 ? 所 以 ， 
程序 员 们 封装 了 各 种 函数 来 帮助 自己 直接 删除 申请 
内 存 。 


void *malloc(size t s/ze); 

void free(void 279; 

void *calloc(size t nmemb, size t size); 

void *realloc(void "ptr, size t size); 

void *reallocarray(void рт size t nmemb, size t size); 


free() 函 数 会 释放 由 ptr 指 向 的 内 存 空间 ， 这 块 内 存 空间 必须 为 之 前 使 用 malloc) , 
calloc()， 或 者 realloc() 所 申请 的 空间 。 如 果 这 块 空间 未 被 上 述 函 数 申请 过 ， 或 者 
free(ptr) 之 前 已 经 被 调用 过 ,那么 会 产生 不 可 预知 的 结果 。 如 果 pt1 为 NULL ,系统 
不 执行 任何 操作 。 


10.1.8.4 _ malloc/calloc/realloc 函 数 


这 些 用 于 帮助 程序 员 申 请 内 存 的 函数 被 打包 到 
libe.so 库 文件 中 供 调用 。 如 图 10-42 所 示 为 主流 的 上 层 
内 存 分 配 函 数 简 介 。 

这 些 函 数 在 底层 其 实 也 都 是 调用 了 brk0 和 mmapO 
两 个 函数 来 向 操作 系统 分 配 内 存 的， 如 图 10-43 所 
示 。 对 于 malloc() 函 数 ， 视 glibc 库 的 不 同 版 本 而 异 ， 
一 般 来 讲 ， 当 进程 申请 内 存 小 于 128KB 时 ，malloc() 
会 调用 sbrk0 来 向 内 核 申 请 直接 增加 堆 空间 ， 若 申请 
的 内 存 大 于 128KB， 则 会 调用 mmap0 来 向 内 核 申请 
映射 区 内 存 形 成 匿名 映射 空间 。sbrk() 和 mmap() 函 数 
进行 系统 调用 进入 内 核 态 之 后 ， 内 核 会 执行 _ brk() 
或 ”mmap() 函 数 以 及 后 续 的 函数 (比如 sys_brk()、 
sys mmap pgoff()^$) 继续 完成 后 续 的 工作 。 

然而 ，malloc() 等 函数 并 不 仅 是 当 一 个 传 话 员 这 
么 简单 。 比 如 某 进程 调用 mallocO 欲 分 配 1KB 的 内 存 ， 
而 后 者 可 能 直接 调用 brk() 向 操作 系统 申请 132KB 内 
存 ， 然 后 malloc() 函 数 自身 维护 了 一 些 数据 结构 专门 
用 于 记录 内 存 分 配 情况 ， 如 果 后 续 进程 再 次 申请 内 
存 ， 那 么 该 函数 就 不 需要 向 OS 去 申请 了 ， 而 是 直接 从 
它 批发 过 来 的 货源 中 切取 一 块 给 进程 。malloc() 相 当 
于 一 个 批发 商 ， 其 从 厂商 (操作 系统 内 核 ) 大量 批发 
货物 ， 然 后 零售 给 用 户 进 程 ， 因 为 这 样 可 以 节省 大 量 
的 系统 调用 过 程 带 来 的 开销 。 这 里 会 有 一 个 问题 ， 用 
户 进程 如 果 申 请 了 1KB 内 存 而 底层 却 默 默 地 隐 含 地 向 
OS 申 请 了 更 多 内 存 ， 那 么 进程 如 果 试 探 性 地 访问 超出 
了 这 1KB 之 外 的 内 存 地 址 ， 也 是 可 以 成 功 访问 的 。 这 
就 会 造成 潜在 问题 ， 一 旦 稍 不 留神 访问 越界 ， 却 没有 
报 异 常 ， 遂 继续 越界 访问 ， 随 后 进程 又 分 配 比 如 1KB 
空间 ， 而 malloc() 是 根本 不 知道 进程 访问 过 哪些 区 段 
的 ， 其 如 果 分 配 了 之 前 已 经 被 失误 越界 访问 而 留 有 关 
键 数 据 的 物理 页 面 ， 进 程 向 这 些 物 理 页 写 入 新 数据 ， 
却 覆盖 了 旧 数据 ， 这 个 过 程 被 俗称 为 “ 踩 内 存 ”， 相 
当 于 自己 踩 到 了 自己 ， 或 者 咬 着 了 自己 的 舌头 一 样 ， 
最 终 会 导致 各 种 奇怪 问题 。 


malloc0 函 数 负责 分 配 size 字 节 数 的 内 存 空间 并 返回 指向 该 内 存 空间 基地 址 的 指针 。 注 
Ж, 分配 好 的 内 存 空间 并 不 会 被 初始 化 ， 这 意味 着 该 内 存 空间 中 的 内 容 不 可 预知 。 如 果 
ш. сей шысын ан А АС А АС 


calloc() 函 数 会 分 配 一 系列 的 mmemb 片段 空间 , 每 个 片段 的 大 小 为 size 字 节 ， 并 返回 
对 应 的 指针 ， 分 配 好 的 空间 会 被 初始 化 为 0 , 如果/me/mb 二 者 size 为 0 ， 则 calloc() 可 


能 返回 NULL 或 者 返回 某 个 可 以 被 用 于 后 续 调 用 free() 进 行 空间 释放 的 指针 。 


realloc( SP ы САН АСЫЛДЫ НР 内 存 空 间 中 的 内 容 不 会 变化 ， 但 是 如 果 新 空间 小 于 之 前 的 空间 ,被 保留 空间 中 的 内 容 不 变 。 如 果 新 空间 大 于 之 
内 容 不 会 被 初始 化 。 如 果 pt 为 NULL ,那么 该 调用 将 等 效 于 mma/oclsize) ,如果 size 为 0， 并且 pt/ 不 为 NULL ,那么 该 调用 将 等 效 于 
free(ptr), 除非 ,pt 为 NULL , od calloc0 或 者 realloc(0 所 返回 的 ， 如 果 被 指向 的 区 域 被 移 除 ， BBA /ree(ptr) 就 被 认为 已 经 完成 。 


10-42 ”主流 的 上 层 内 存 分 配 函 数 简介 


Application 用 户 态 应 用 程序 


用 户 态 运 行 库 


malloc( ) 


_mmap() 


用 户 态 运行 库 底层 程序 
执行 系统 调用 


sys brk() 内 核 系统 调用 下 游程 序 


图 10-43 ”malloc0 函 数 的 调用 流程 示意 图 


这 些 函数 向 内 核 批 发 内 存 的 颗粒 度 随 着 不 同 C 运 
行 库 、 不 同 算法 、 不 同 操作 系统 而 各 不 相同 。 进 程 可 
以 选择 不 使 用 malloc0 而 直接 调用 brk/mmap 自 己 向 内 
核 申请 内 存 。 每 个 进程 调用 malloc() 之 后 ， 后 者 会 在 
进程 虚拟 空间 中 创建 一 系列 数据 结构 用 于 追踪 向 操作 
系统 批发 内 存 的 情况 ， 以 及 向 进程 零售 出 去 的 情况 ， 
相当 于 做 了 两 本 账 。mallocO 也 相当 于 进程 自己 雇佣 
的 一 个 内 存 管 家 一 样 ，mallocO 自 身 的 逻辑 全 都 运行 
在 用 户 态 ， 它 只 是 协助 用 户 进程 去 申请 和 管理 内 存 而 
已 。 不 同 的 算法 、 库 版 本 可 能 记 账 的 方式 和 分 配 的 方 
式 不 同 ， 大 家 可 以 自行 了 解 。 

而 对 于 内 核 来 讲 ， 其 只 看 brk 水 位 线 位 置 ， 也 就 
是 堆 空 间 顶 端 位 置 ， 顶 端 下 方 的 空间 都 是 可 以 被 访问 
的 ， 也 就 是 采用 一 刀 切 方式 来 切取 内 存 给 用 户 态 进程 
(或 者 用 户 态 进程 的 委托 人 : malloc0 函 数 ) 。 


用 户 态 的 内 存 管理 库 比 如 malloc0 等 ， 有 不 同 的 
变种 算法 ， 包 括 dlmalloc ( General purpose allocator 
通用 分 配器 ) ptmalloc2 ( 标准 glibc ) 、jemalloc 
(FreeBSD/Firefox ) 、 tcmalloc ( Google) 、 
libumem ( Solaris ) 等 。 此 外 ， 还 需要 考虑 到 目前 多 
核心 、 多 CPU 的 NUMA 架 构 下 不 同位 置 的 RAM 其 性 
能 不 同 这 个 因素 ， 综 合 提供 多 种 内 存 分 配 策略 。 限 
于 篇 幅 ， 不 再 介绍 这 些 具 体 算 法 和 策略 ， 大 家 可 以 
自行 了 解 。 


sys_mmap_pgoff( ) 


10.1.8.5 buddy 和 slab 算 法 


内 核 态 的 kmalloc/vmalloc 分 配 管理 函数 也 有 特定 
的 算法 ， 比 如 伙伴 算法 、slab 缓 存 等 。 伙 伴 (buddy) 
算法 的 原理 如 下 : 假设 初始 时 系统 内 有 8192 个 连续 物 
理 页 面 的 空闲 内 存 ， 则 buddy 算 法 将 其 分 割 为 8 个 组 ， 
每 组 1024 个 页 面 ， 并 使 用 双向 链表 将 这 8 个 组 链 起 
Ж: 假设 某 内 核 程 序 模块 想 申请 一 个 128 个 页 面 的 内 
存 空 间 (也 就 是 512KB)〉 ， 则 伙伴 算法 先 将 1024 个 页 
面 组 拆 分 为 两 个 512 个 页 面 的 组 ， 再 将 其 中 一 个 512 个 
页 面 组 拆 分 为 两 个 256 个 页 面 的 组 ， 再 将 其 中 一 个 256 
个 页 面 组 拆 分 成 两 个 128 个 页 面 组 ， 将 其 中 一 个 128 个 
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页 面 组 分 配给 该 程序 模块 使 用 。 此 时 ， 系 统 内 存在 : 
一 个 512 个 页 面 组 、 一 个 256 个 页 面 组 、 一 个 128 个 页 
面 组 。 后 续 如 果 再 有 程序 模块 申请 分 配 128 页 面 组 ， 
则 直接 分 配 剩 下 的 这 个 128 页 面 组 ， 如 果 有 程序 尝试 
分 配 64 页 面 ， 则 将 剩余 的 这 个 128 页 面 组 拆 分 为 两 个 
64 页 面 组 ， 将 其 中 的 一 个 分 配给 程序 。 同 理 ， 如 果 有 
程序 用 完了 某 块 内 存 ， 释 放 给 内 存 管理 模块 ， 那 么 伙 
伴 算法 会 尝试 将 这 块 内 存 与 现存 的 组 进行 合并 ， 如 果 
被 释放 的 内 存 与 某 个 组 大 小 相等 ， 比 如 某 被 释放 的 
128 页 面 空间 与 现存 的 另外 128 页 面 空 闲 区 段 在 物理 上 
是 相 邻 的 ， 则 其 两 者 合并 成 一 个 512 页 面 的 组 。 

伙伴 算法 为 1 页 面 、2 页 面 、4 页 面 一 直到 1024 页 
面 组 ， 每 个 层级 都 设置 了 一 个 双向 链表 ， 如 图 10-44 
所 示 。 这 样 一 共 会 有 11 个 层级 ，11 个 链表 ， 然 后 再 使 
用 free_area[11] 数 组 来 描述 这 11 个 链表 ， 每 个 层级 的 
链表 被 称 为 一 个 Order。 如 图 10-44 右 侧 所 示 ， 假 设 系 
统 中 仅 存 在 3 组 8 页 面 的 空间 、8 组 1 页 面 的 空间 ， 而 某 
内 核 程序 欲 申请 一 个 8KB 〈2 页 面 ) 的 空间 ， 则 系统 
首先 搜索 Order 1， 也 就 是 2 页 面 为 一 组 的 Order， 发 现 
为 空 ， 则 继续 搜索 Order 2， 发 现 仍 然 为 空 ， 则 搜索 
Order 3， 不 为 空 ， 则 从 其 中 拿 出 一 个 8 页 面 ， 将 其 分 
裂 为 两 个 4 页 面 ， 并 将 其 中 一 个 4 页 面 组 加 入 到 Order 2 
链表 中 ， 将 另 一 个 再 次 分 裂 为 两 个 2 页 面 组 ， 其 中 一 
个 加 入 Order 1 链表 中 ， 剩 下 的 两 个 页 面 提供 给 申请 内 
存 的 内 核 程序 使 用 。 

实际 中 ， 伙 伴 算法 的 具体 算法 和 设计 细节 也 可 能 
略 有 不 同 ， 比 如 有 些 算法 Order 的 层级 可 能 到 不 了 11 
级 ，5 级 就 够 了 ， 因 为 内 核 程序 一 般 不 会 申请 太 大 的 
连续 空间 。 如 果 内 核 程序 申请 的 内 存 大 小 并 非 2 的 寡 
次 关系 ， 则 按照 能 够 容纳 所 申请 尺寸 的 最 低 的 层级 
开始 搜索 。 现 在 你 应 该 能 够 体会 到 所 谓 伙伴 的 意思 
了 。 一 组 页 面 被 分 裂 成 多 个 组 〈 伙 伴 ) ， 释 放 后 ， 
如 果 与 其 他 伙伴 相 邻 ， 则 结伴 而 行 形成 更 大 粒度 
的 组 。 

伙伴 算法 并 非 只 可 用 于 内 核 内 存 的 分 配 ， 用 户 态 
的 malloc0 系 列 函数 也 可 以 采用 这 个 算法 ， 只 不 过 主 
流 算法 都 没有 采用 伙伴 机 制 ， 因 为 用 户 态 内 存 分 配 的 
行为 与 内 核 态 不 太一 样 ， 用 户 态 分 配 的 内 存 一 般 长 短 
不 一 ， 很 不 规则 。 相 比 之 下 内 核 态 程序 分 配 内 存 的 长 
度 比较 规则 ， 而 且 基本 不 会 有 大 起 大 落 的 行为 变化 。 

然而 ， 一 个 4KB 的 页 面 有 时 候 对 于 内 核 代码 而 言 
还 是 太 大 了 ， 很 多 内 核 里 面 的 数据 结构 大 多 平均 在 百 
字 节 或 者 数 百 字 节 级 别 ， 有 些 数 据 结构 会 被 频繁 创 
建 、 初 始 化 、 释 放 ， 然 后 再 创建 和 释放 。 比 如 当 内 核 
创建 一 个 新 进程 时 ， 它 要 给 进程 分 配 一 大 堆 的 数据 结 
构 ， 包 括 task_struct、mm_struct、vm_area_struct 等 ， 
如 果 每 个 数据 结构 在 创建 时 都 给 它 申请 一 页 内 存 ， 就 
太 浪 费 了 。 一 个 自然 想到 的 方式 是 ， 把 多 个 数据 结构 
挤 在 一 页 里 ， 于 是 有 了 slab 的 机 制 /算法 。 
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回想 用 户 态 的 mallocO 的 机 制 ， 其 利用 brk0 或 者 
mmapO 函 数 从 内 核 批发 内 存 然后 零售 给 用 户 态 程序 使 
用 。 内 核 slab 机 制 也 是 这 样 的 ， 先 向 伙伴 算法 内 存 管 
理 模块 申请 一 批 页 面 回来 (数量 不 定 ， 看 算法 设计 和 
其 他 参数 ) ， 然 后 对 这 批 页 面 精打细算 ， 先 将 一 页 或 
者 数 页 作为 一 个 分 配 单元 ， 被 称 为 slab， 再 在 这 个 slab 
内 切 分 更 细 的 子粒 度 ， 每 个 子粒 度 被 称 为 一 个 object 
〈 对 象 ) ， 然 后 向 前 来 申请 内 存 的 内 核 程序 模块 贩 
卖 这 些 object。 但 是 不 同 的 客户 需求 不 同 ， 比 如 有 些 
客户 不 停 地 购买 和 退回 task_struct 结 构 体 ， 有 些 则 是 
mm_struct 结 构 体 ， 这 两 个 结构 体 尺寸 不 同 ，object 切 
分 粒度 就 得 跟着 不 同 ， 才 能 更 好 地 利用 批发 回来 的 内 
存 ， 然 而 又 无 法 做 到 精确 匹配 各 种 内 核 结构 体 的 尺 
sp. 所 以 只 能 采用 和 鞋 店 类 似 的 方式 ， 只 提供 主流 的 
几 个 尺码 ， 客 户 买 大 不 买 小 ， 大 了 凑合 着 穿 ， 大 不 了 
浪费 一 些 。 而 且 ， 随 着 客户 不 断 地 买 、 卖 ， 仓 库 中 的 
内 存 中 会 产生 大 量 的 碎片 ， 需 要 用 仓库 管理 手册 来 记 
录 哪 些 object 是 空闲 的 。 思 维 酝酿 到 这 里 ， 我 们 就 来 
看 看 slab 算 法 的 实际 实现 。 

如 图 10-45 所 示 为 slab 算 法 的 关键 数据 结构 。 
面 对 不 同 的 内 存 粒度 需求 ， 与 伙伴 算法 的 初衷 类 
似 ，slab 算 法 也 将 内 存 的 颗粒 度 做 固定 尺寸 粒度 的 
层级 划分 ， 也 是 11 级 ， 分 别 为 96 字 节 、192 字 节 、 
8 字 节 、16 字 节 、…2048 字 节 。 如 果 要 分 配 4096 字 
节 (4КВ) 那 就 不 要 用 slab 了 ， 直 接 向 伙伴 算法 的 
内 存 管 理 函数 申请 1 页 就 可 以 ，slab 就 是 要 解决 小 于 
4KB 粒 度 的 内 存 分 配 问题 。 然 后 ， 将 这 11 个 层级 表 
述 为 一 个 kmalloc_caches[11] 数 组 ， 每 一 项 放置 一 个 
指针 ， 指 向 一 个 关键 的 数据 结构 kmem_cache。slab 
的 策略 并 不 是 用 一 家 零售 店 来 售卖 全 部 11 种 尺寸 的 
object， 而 是 直接 开 11 家 样板 店 ， 各 自 只 零售 对 应 
尺寸 的 object。 各 家 店 的 kmem cache 结构 体 就 是 掌 
柜 的 ， 其 记录 了 slab 内 部 每 个 条 目的 尺寸 (size 字 
段 ，、 贩 卖 的 内 存 粒 度 层 级 尺寸 (objsize 字 段 〉。 
掌柜 的 需要 一 个 库 管 员 (node 指 针 指 向 的 kmem_ 
cache_node 机 构 体 ) 和 一 个 售货员 (cpu_slab 指 针 指 
向 的 kmem_cache_cpu 结 构 体 ) o 

看 看 库 管 员 kmem_cache_node 都 记录 了 些 什么 。 й | 
一 页 内 存 被 切 来 切 去 ， 一 定 有 完全 卖 完 的 〈 用 full 字 а 
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也 有 卖 了 其 中 零碎 的 一 些 object 的 (用 partial 字 有 段 指 
向 一 个 链接 着 所 有 这 种 页 面 的 链表 ) 。 有 没有 一 个 
object 也 没 卖 出 去 的 slab? 只 在 瞬间 有 【比如 客户 退货 
可 来 ) ， 因 为 一 旦 出 现 这 样 的 slab， 人 掌柜 的 会 把 它 退 
本 给 厂家 《〈 调 用 伙伴 算法 内 存 管理 模块 的 内 存 释 放 回 
收 函数 ) ， 这 个 掌柜 的 路 数 是 绝 不 围 货 。 此 外 还 要 记 
录 着 仓库 里 共有 多 少 个 slab Cnr_slabs 字 段 ) 、 多 少 个 
partial 状 态 的 slab (nr partial 字 段 ) ， 当 然 ， 用 mr slab 
减 去 nr_partial 就 是 full 状 态 的 slab 数 量 ， 所 以 不 用 记录 
nr full (不 存在 ) 。 
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再 看 看 售货员 kmem cache_cpu 都 记录 了 什么 。 
零售 店 不 是 超市 ， 柜 台 上 永远 只 摆 放 一 件 商品 ， 卖 
完了 再 从 仓库 提货 一 件 出 来 接着 卖 。 其 中 ， 使 用 page 
字段 指向 柜台 上 的 slab， 用 freelist 字 段 指向 这 个 slab 
内 部 的 那些 空闲 待 售 object 形 成 的 链表 。 每 当 有 客户 
买 object， 先 从 柜台 上 这 个 slab 中 切 出 一 片 object 给 客 
户 ， 然 后 修改 链表 指针 。 

如 图 10-46 所 示 ， 每 次 贩卖 就 卖 出 位 于 链表 头 部 
的 那个 object。 如 果 遇 到 客户 退货 (使 用 完 释放 )， 
则 修改 链表 指针 ， 同 时 将 freelist 指 针 指向 这 个 刚 被 
释放 的 object， 这 样 下 次 就 会 卖 出 上 次 刚 被 退回 来 的 
那个 object， 这 样 做 的 目的 并 不 是 为 了 把 旧 的 先 卖 出 
去 ， 内 存 并 没有 新 旧 这 一 说 。 而 是 为 了 让 slab 内 部 的 
空闲 object 尽 量 保持 稳定 ， 你 完全 可 以 下 次 再 卖 出 新 
的 object， 但 是 这 样 会 让 链表 的 更 改 之 处 增多 。 


slab slab slab slab 
page page page page 


freelist 


freelist 


freelist freelist 


NULL 


释放 了 3 时 间 


RULL 


分 配 了 3 


NULL 


释放 了 2 


NULL 


分 配 了 2 
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如 果 柜 台 上 的 slab 整 体 卖 完 ， 那 当然 是 要 把 它 移 
动 到 仓库 里 〈 将 该 slab 挂 接 到 fall 链表 尾部 ) ， 同 时 从 
仓库 里 再 拿 出 一 份 还 没 卖 完 的 slab 接 着 卖 (从 partial 链 
表 拿 出 一 份 挂 接 到 售货员 page 字 段 指针 指向 上 ) 。 可 
以 看 到 ，slab 机 人 制 就 像 一 个 缓存 一 样 ， 将 批发 来 的 页 
面 切 分 成 object 零 售 ， 并 时 刻 保证 有 足够 的 object 可 售 
卖 ， 被 退回 的 下 一 次 接着 卖 给 别人 。 所 以 slab 机 制 又 
被 俗称 为 slab 缓 存 。 这 个 缓存 只 是 角色 上 具有 缓存 的 
特质 ， 而 并 不 是 硬件 缓存 。 

上 述 流程 就 是 slab 算 法 的 基本 原理 。 上 面 介绍 的 
这 些 只 是 数据 结构 ， 还 需要 一 套 流程 代码 来 执行 slab 
分 配 的 过 程 ， 执 行 的 时 候 按照 这 些 数据 结构 顺 藤 摸 
瓜 找 到 对 应 的 object， 分 配 ， 然 后 修改 数据 结构 记录 
下 本 次 的 结果 。 这 些 代码 就 相当 于 店 里 的 导购 员 ， 
迎接 客户 进来 ， 响 应 客户 的 要 求 。 


操作 系统 内 核 启 动 初始 化 时 会 为 每 一 种 需要 频 
繁 创建 、 释 放 的 内 核 数 据 结构 创建 一 个 零售 店 ， 比 
如 task_struct、mm _struct 等 。 上 面 的 11 个 零售 店 只 
是 样板 店 ， 实 际 中 可 以 参照 这 个 样板 创建 任意 数量 
的 连锁 店 。 函 数 kmem cache create ОБА, HAR 
寸 、 其 他 参数 ) 被 用 于 创建 一 家 新 店 ， 本 质 上 其 实 
就 是 置办 一 下 上 述 数据 结构 〈 一 个 掌柜 的 加 两 个 员 
工 ) 并 填充 对 应 的 字段 即 可 。 新 店 开张 后 里 面 什么 
货物 都 没有 (掌柜 不 围 货 ) ， 一 直到 有 其 他 内 核 模 
块 通过 调用 kmem cache _alloc〔〈 店 名 ， 其 他 参数 ) 
函数 来 向 这 家 店 购买 object 时 ， 该 函数 底层 会 动态 
地 找 伙伴 算法 的 内 存 管 理 模 块 批 发 来 页 面 ， 然 后 切 
分 ， 售 出 。 

不 同 版 本 的 Linux 在 slab 的 具体 机 制 上 可 能 会 有 
所 不 同 。 比 如 在 如 图 10-47 左 侧 所 示 的 架构 下 ， 多 个 
kmem cache 连锁 店 被 真 的 链接 了 起 来 ， 在 一 个 cache_ 
chain 里 ， 而 且 每 个 连锁 店内 部 可 以 围 货 ， 允 许 有 
slabs_empty 链 表 的 存在 ， 其 链接 着 那些 完全 空闲 的 
slab。 图 10-47 右 侧 为 该 架构 下 对 应 的 数据 结构 ， 其 
中 每 个 slab 的 头 部 记录 了 更 多 控制 信息 ， 其 中 有 一 项 
叫 作 coloroff， 这 个 参数 用 于 控制 该 slab 内 部 用 于 存放 
object 的 起 始 区 域 相对 slab 基 地 址 的 偏 移 量 ， 不 同 的 
slab 的 这 个 偏 移 量 不 同 ， 系 统 利用 这 个 偏 移 量 将 不 同 
slab 内 相同 相对 位 置 的 object 在 逻辑 上 相互 错开 ， 以 
避免 它们 相互 挤占 CPU 内 的 缓存 行 ， 这 个 思路 与 第 6 
章 中 的 6.2.12 节 介绍 的 Page Coloring 思 路 相同 。 而 slab 
的 coloroff 则 是 在 页 内 进一步 分 散 从 而 降低 缓存 挤占 
概率 。 

在 下 面 的 10.2.2.3 节 中 会 给 出 一 些 内 核 在 初始 化 时 
的 实际 代码 ， 届 时 读者 可 以 再 来 回顾 slab 机 制 。slab 这 
种 按照 数据 结构 对 象 来 零售 的 方式 又 被 称 为 对 象 池 ， 
这 是 个 更 加 抽象 的 说 法 了 。 此 外 ， 内 核 中 还 提供 了 其 
他 类 似 的 变种 算法 ， 比 如 slub、slob， 篇 幅 所 限 就 不 
多 描述 了 。 最 后 ， 请 读者 自行 体会 如 图 10-48 所 示 的 
Linux 内 核 在 内 存 管理 方面 的 架构 示意 图 。 

池 的 思想 也 被 广泛 应 用 ， 不 仅 这 些 内 核 数据 结构 
的 创建 可 以 直接 从 对 象 池 中 拿 到 内 存 ， 线 程 也 可 以 形 
成 线程 池 ， 比 如 频繁 创建 和 销毁 线程 很 不 划算 ， 将 线 
程 作成 池 ， 创 建 时 直接 从 池 中 取 一 个 出 来 ， 塞 入 新 的 
执行 代码 就 行 。 此 外 还 有 连接 池 ， 因 为 TCP 需 要 频繁 
建立 连接 ， 每 次 建立 连接 都 需要 创建 一 堆 数 据 结构 ， 
在 连接 断 开 后 ， 保 留 这 套数 据 结 构 供 后 续 连接 继续 
用 。 具 体内 容 读者 可 自行 了 解 。 
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图 10-48 ” Linux 内存 管理 作用 路 径 示 意图 


10.2 任务 创建 与 管理 


内 存 是 程序 运行 的 场所 和 温床 ， 内 存 准 备 好 之 
后 ， 进 程 才能 开始 运行 。 本 节 我 们 就 来 看 一 下 操作 系 
统 是 如 何 调度 多 个 进程 来 分 时 运行 ( 单 处 理 器 核心 系 
AD 或 者 并 行 运行 的 (多 处 理 器 核心 系统 ) 。 

在 第 5 章 中 中 ， 我 们 初步 介绍 了 如 何 同时 运行 多 
个 程序 ， 也 介绍 了 线程 和 进程 的 区 别 ， 在 此 建议 大 家 
回顾 一 下 再 继续 阅读 。 线 程 /进程 是 什么 ? 线程 首先 是 
一 堆 代码 和 数据 ， 其 次 是 这 堆 代 码 和 数据 的 执行 状态 
(执行 到 哪里 了 ，CPU 里 的 寄存 器 值 各 是 多 少 ， 分 配 
了 多 少 内存 ， 分 配 在 哪里 ， 哪 些 被 swap 出 去 了 ， 打 开 
了 哪些 文件 ， 等 等 ) 。 要 将 一 个 进程 暂停 而 切换 到 另 
一 个 进程 ， 那 么 就 需要 将 上 述 所 有 东西 保存 起 来 ， 冻 
住 ， 存 好 ， 然 后 将 另 一 个 进程 的 上 述 信息 重新 安放 到 
CPU 对 应 寄存 器 上 ， 执 行 。 

这 就 像 一 个 舞台 (CPU 核心 ) ， 要 供 多 个 剧组 演 
出 多 个 剧目 (进程 》， 剧 目 中 有 多 个 各 自 独立 的 角色 
(线程 ) ， 有 跑龙套 的 ， 有 主角 ， 第 一 配角 ， 第 二 配 
角 等 ， 他 们 在 同一 个 舞台 (CPU 和 虚拟 地 址 空间 ) 上 
各 自 执行 着 自己 的 动作 ， 互 不 干扰 ， 偶 有 交谈 CQ 
程 间 共 享 访问 变量 ) ; 还 有 专门 的 一 个 角色 〈IO 线 
Ë) 负责 向 幕后 人 员 操作 系统 ) 发 出 信号 〈 系 统 调 
用 ) 控制 幕布 、 灯 光 角 度 和 颜色 、 背 景 图 片 道具 切换 
的 ; 或 许 还 有 一 个 角色 〈 负 责 创 建新 线程 ) 专门 负责 
通知 幕后 人 员 请 其 他 角色 〈 线 程 )》 上 台 执 行 以 及 向 幕 
后 人 员 申 请 舞台 某 个 区 域 使 用 权 的 (申请 分 配 新 虚拟 
地 址 空间 ) 。 如 果 系 统 只 有 一 个 CPU 核心 ， 那 么 舞台 
上 的 所 有 角色 〈 线 程 ) 只 能 一 个 接 一 个 地 执行 ， 当 一 
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个 角色 举手投足 时 ， 其 他 角色 都 静止 在 原 地 ， 大 家 轮 
流 执行 ， 只 要 切换 速度 足够 快 ， 给 观众 的 感觉 就 会 是 
所 有 角色 都 在 “同时 ”做 出 各 种 动作 。 当 某 个 角色 执 
行 完 一 个 细小 的 时 隙 〈 比 如 10ms) 后 ， 幕 后 会 响起 一 
个 闹 铃 〈 时 钟 中 断 》 ， 中 断 该 角色 的 演出 ，CPU 停 止 
执行 该 角色 ， 并 将 该 角色 的 身体 各 部 位 的 位 置 (CPU 
内 部 关键 寄存 器 值 ) 保存 起 来 ， 这 个 演员 就 可 以 下 台 
休息 了 。 然 后 ， 幕 后 人 员 根 据 下 一 个 要 执行 的 角色 按 
照 之 前 方式 保存 的 位 置信 息 ， 将 其 身体 形状 拧 巴 成 对 
应 的 形状 〈 恢 复 安置 各 个 寄存 器 值 到 CPU 上 ) , МЕ 
台 ， 然 后 CPU 开始 执行 ， 该 角色 会 继续 从 之 前 的 断 点 
执行 ， 就 好 像 什么 也 没有 发 生 过 一 样 。 

综 上 所 述 ， 为 了 实现 多 任务 并 行 ， 起 码 要 保存 
两 大 套 东 西 : 程序 基本 信息 《比如 内 存 分 配 情况 等 ) 
和 程序 的 运行 时 动态 上 下 文 信息 〈 比 如 CPU 内 部 寄存 
器 值 等 ) ， 这 两 大 块 信息 统称 为 进程 /任务 的 上 下 文 

(Context) 。 这 两 套 信息 会 被 保存 在 内 存 中 的 特定 数 
据 结构 中 。 

可 以 想象 ， 操 作 系统 和 CPU 必须 密切 配合 来 实现 任 
务 的 切换 ， 比 如 ， 当 接收 到 外 部 时 钟 中 断 时 ，CPU 必 须 
自行 〈 在 没有 任何 代码 驱动 下 ) 将 当前 的 寄存 器 值 保存 
起 来 ， 然 后 才能 跳 转 到 对 应 的 中 断 服 务 程序 执行 ， 如 果 
不 保存 就 直接 执行 中 断 服务 程序 ， 那 么 后 者 的 代码 在 执 
行 时 将 会 把 之 前 程序 的 中 间 结 果 全 部 覆盖 掉 。 而 操作 系 
统 负责 的 则 是 维护 一 大 堆 的 数据 结构 表格 来 记录 每 个 线 
程 /任务 的 上 下 文 信息 ， 以 及 进一步 地 保存 现场 ， 以 及 
决定 将 哪个 线程 调度 到 CPU 上 继续 执行 。 

本 章 中 ， 我 们 根本 不 关注 对 应 的 任务 、 线 程 、 
进程 到 底 都 做 了 些 什么 ， 是 聊天 程序 ， 还 是 游戏 ， 
抑或 是 科学 计算 程序 ? 这 些 对 操作 系统 来 讲 ， 它 根 
本 不 关心 。 操 作 系统 看 到 的 只 是 一 连 串 的 代码 、 执 
行 流 ， 而 OS 只 需要 为 这 串 代码 创建 好 一 个 温床 ， 至 
于 这 些 代码 做 了 什么 ， 那 是 CPU 要 去 取 指 、 译 码 、 
执行 的 ， 与 OS 本 身 没 有 关系 。 当 然 ， 这 些 代 码 可 能 
会 时 不 时 委托 操作 系统 帮 它 们 来 做 一 些 事情 〈 系 统 
WA) ， 比 如 聊天 程序 需要 将 信息 发 送 到 网 络 上 ， 
字 处 理 程序 需要 保存 文档 文件 到 硬盘 上 ， 此 时 OS 就 
得 出 手 了 ， 但 是 OS 此 时 也 并 不 会 去 关心 对 应 的 线程 
到 底 是 因为 聊天 才 发 出 的 信息 ， 还 是 为 了 访问 网 页 
而 发 出 的 信息 。 系 统 调用 结束 之 后 ， 返 回 用 户 态 继 
续 执行 时 ，OS 又 不 管 了 。 


10.2.1 32 位 x86 处 理 器 任务 管理 支持 


如 图 10-49 所 示 ， 为 了 保存 任务 的 上 下 文 信息 ， 
Intel 的 80386 处 理 器 以 及 后 续 的 Intel 32 位 处 理 器 定义 
了 一 个 叫 作 TSS (Task State Segment) 的 表 结构 ， 该 
表 由 操作 系统 的 任务 管理 模块 负责 生成 ， 并 负责 将 


该 表 所 在 的 内 存 基 地 址 写 入 到 GDT 中 的 TSS 描 述 符 
中 ， 并 将 该 描述 符 的 位 置 索引 使 用 LTR (Load Task 
Register) 指令 载 入 到 处 理 器 的 TR (Task Register) 
寄存 器 ， 该 寄存 器 与 CS/DS 寄 存 器 一 样 ， 也 是 一 个 选 
择 子 寄 存 器 (拥有 存储 选择 子 的 可 见 部 分 和 存储 描 
述 符 副本 的 不 可 见 部 分 ) ， 用 于 从 GDT 中 选 出 TSS 描 
述 符 〈 图 中 央 所 示 ， 由 于 TSS 属 于 系统 段 而 不 是 用 户 
段 ， 所 以 其 S 位 恒 为 0) ， 处 理 器 再 利用 描述 符 中 记 
录 的 基地 址 来 找到 TSS 表 。 该 表 中 存放 的 是 一 个 任务 
/线程 的 运行 时 上 下 文 信息 ， 包 括 IP 指 针 、 栈 指针 、 
通用 寄存 器 的 值 、 页 表 基 地 址 值 等 。IO Map Base 
Address 保 存 着 IO 权限 表 的 基地 址 ， 操 作 系统 内 核 可 
以 限制 某 个 线程 对 某 个 IO 端口 的 访问 ， 对 应 的 权限 
描述 信息 就 放置 在 IO Map 中 ，CPU 执 行 O 指 令 〈 比 
щш, Out) 时 会 根据 该 表 判断 是 否 允 许 执行 ， 不 过 
目前 几乎 所 有 外 部 设备 都 已 经 使 用 了 MMIO 方 式 ， 鲜 
有 使 用 这 种 传统 IO 方式 了 ， 我 们 在 本 书 之 前 章节 中 
也 介绍 过 。 

Intel 建 议 操作 系统 为 每 个 线程 都 准备 一 个 TSS 
表 。 当 操作 系统 启动 一 个 新 任务 时 ， 需 要 对 该 表 进 行 
初始 化 填充 ， 然 后 将 该 表 基 地 址 更 新 到 TR 寄存 器 ， 
处 理 器 会 根据 TR 指针 找到 TSS 表 ， 并 从 表 中 取出 这 个 
新 任务 的 了 指针 、 栈 指针 、 通 用 寄存 器 值 等 ， 将 它们 
载 入 对 应 的 寄存 器 ， 然 后 开始 执行 。 这 相当 于 ， 操 作 
系统 用 TSS 这 个 表格 来 对 CPU 下 发 任务 ， 只 要 将 TR 更 
新 好 ， 其 他 的 都 是 CPU 内 部 电路 自行 处 理 ， 一 直到 所 
有 寄存 器 都 被 安置 好 之 后 ， 开 始 执行 任务 代码 ， 后 续 
CPU 的 执行 在 代码 的 控制 下 完成 。 

在 发 生 外 部 中 断 比如 时 钟 中 断后 ， 内 核 可 以 将 
另外 一 个 任务 的 TSS 选 择 子 装 入 TR 寄存 器 ， 此 时 ， 
CPU 会 自动 将 当前 任务 的 上 下 文 信息 全 部 保存 到 上 一 
个 TSS， 然 后 再 从 给 出 的 新 TSS 中 恢复 所 有 上 下 文 到 
CPU 内 部 寄存 器 ， 然 后 开始 运行 新 任务 。 

那么 ， 当 一 个 用 户 任务 正在 运行 期 间 ， 如 果 操 
作 系 统 想 主动 中 断 暂停 某 个 任务 的 执行 而 切换 到 另 一 
个 任务 ， 怎 么 办 ? 常规 来 讲 是 没 办 法 主动 暂停 任务 执 
行 的 ， 因 为 处 理 器 在 运行 一 个 用 户 任务 期 间 ， 操 作 系 
统 并 没有 在 运行 ， 根 本 无 法 控制 系统 ， 除 非 该 用 户 任 
务 执行 了 系统 调用 ， 才 会 进入 内 核 代码 执行 。 所 以 ， 
只 有 靠 外 部 或 者 特殊 内 部 事件 来 中 断 CPU 的 运行 〈 比 
如 定期 的 时 钟 中 断 ， 外 部 设备 的 IO 中 断 ， 或 者 程序 
执行 异常 ， 程 序 主动 系统 调用 等 ) ， 让 CPU 从 用 户 任 
务 中 跳出 来 来 执行 中 断 服务 程序 从 而 进入 内 核 代码 执 
行 ， 此 时 内 核 才能 重新 掌管 整个 系统 ， 也 只 有 此 时 ， 
内 核 才能 为 所 欲 为 ， 比 如 暂停 上 一 个 任务 ， 调 度 其 他 
任务 来 执行 ， 然 后 回 到 用 户 态 继续 执行 ， 此 时 内 核 由 
于 无 法 被 执行 而 被 沉默 ， 等 下 次 中 断 到 来 ， 再 到 内 核 
转 一 圈 ， 再 回 到 用 户 态 ， 周 而 复 始 。 
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想 让 内 核 主动 立刻 触发 任务 
切换 并 不 是 没有 办 法 ， 有 ， 前 提 
是 需要 多 核心 处 理 器 或 者 多 处 理 
器 平台 。 此 时 ， 可 以 让 一 个 内 核 
级 权限 的 线程 一 直 运 行 在 某 个 核 
心 上 ， 而 且 关 闭 该 核心 的 中 断 响 
应 ， 或 者 被 中 断后 仍然 运行 该 线 
程 ， 此 时 内 核 就 可 以 保证 永远 在 
运行 。 对 于 用 户 态 线程 ， 可 以 将 
它们 调度 到 其 他 核心 上 运行 。 当 
内 核 想 调度 其 他 用 户 线程 运行 
时 ， 可 以 通过 这 个 永远 在 运行 的 
内 核 线程 ， 发 出 IPI 中 断 给 目标 核 
心 ， 从 而 触发 目标 核心 运行 IPI 中 
断 服务 程序 ， 然 后 调度 对 应 的 用 
户 线程 执行 。 不过， 这 样 做 会 浪 
费 一 个 核心 ， 其 只 能 被 内 核 级 线 
程 独占 充当 总 指挥 。 这 类 设计 只 
在 一 些 专用 系统 里 使 用 ， 通 用 系 
统一 般 不 这 样 设计 。 


nt Limit 


Зедте! 


Invisible Part 


Base Address 
| Attr 


GDT 
TSS Descriptor 


| 


155 
Visible Part 


4 
0 
Task 


Register 


Base 23:16 


87 
Type 
Segment Limit 15:00 


t || ||| 


10.2.1.1 用户 栈 与 内 核 栈 


当 一 个 用 户 线程 运行 时 ， 它 
可 能 会 发 生 错误 而 导致 异常 ， 它 也 
可 能 会 发 出 系统 调用 而 转移 到 内 核 
部 分 的 代码 执行 ， 而 CPU 也 可 能 随 
时 接收 到 外 部 中 断 ， 这 些 因 素 都 会 
触发 CPU 提升 权限 级 别 到 Ring0 级 
运行 。 
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图 10-49 TSS 表 结构 、TSS 描 述 符 结构 、 相 关 指 向 关系 示意 图 
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为 了 实现 更 高 的 隔离 性 ， 当 该 线程 运行 到 内 核 态 ”下 文 信息 。 所 以 ， 当 发 生 系统 调用 、 外 部 /内 部 中 断 触 
里 面 的 时 候 ， 需 要 使 用 与 用 户 态 时 不 同 的 独立 的 栈 空 ”发 CPU 跳 转 时 ，CPU 总 共 要 保存 (Push 压 入 ) : 当前 
间 来 专门 用 于 运行 内 核 态 代码 〈 供 内 核 态 代码 进行 函 ”用 户 态 的 SS 指针 、ESP 指 针 、EFLAGS 寄 存 器 值 、 代 
数 调用 以 及 存放 局 部 变量 等 时 使 用 ) ， 这 个 栈 被 称 为 。” 码 段 CS 选 择 子 寄存 器 值 、EIP 指 针 到 该 线程 的 内 核 栈 
该 线程 的 内 核 栈 ， 每 个 线程 都 有 各 自 独立 的 内 核 栈 。 中 保存 ， 供 返回 时 弹出 ， 恢 复 用 户 态 代码 执行 。 如 果 
由 于 x86 处 理 器 被 设计 为 拥有 4 个 Ring 级 别 ， 最 外 层 的 。 是 异常 导致 的 中 断 ， 比 如 程序 发 生 除 0 错误 ， 则 CPU 
Ring3 使 用 的 栈 相关 指针 被 记录 在 SS (当前 线程 的 栈 段 ”会 生成 错误 码 ，CPU 也 会 将 错误 码 也 压 栈 ， 供 后 续 程 
选择 子 ) ~ ESP. EBP (当前 线程 的 栈 顶 和 栈 基地 址 ， 序 判 断 处 理 。 

对 栈 的 介绍 详 见 第 5 章 ) 中 ， 而 其 他 三 个 Ring 级 别 各 使 上 述 这 个 过 程 如 图 10-50 所 示 ， 左 侧 为 中 断 之 后 
用 一 个 栈 ， 相 应 的 栈 指针 则 是 ESP 0/1/2 以 及 SS 0/1/2, 执行 的 代码 的 权 级 与 中 断 前 程序 相同 时 的 情况 ， 此 时 
这 些 指针 也 都 被 保存 在 图 10-49 左 侧 所 示 的 TSS 表 中 对 ”由 于 它们 共同 使 用 同一 个 栈 ， 不 需要 压 入 EBP 和 ESP 
应 位 置 。 这 些 不 同 级 别 下 的 栈 空间 ， 必 须 由 操作 系统 ”寄存 器 ， 只 压 入 之 前 程序 的 EFLAGS、CS、EIP、 错 
任务 管理 模块 和 内 存 管 理 模块 协同 预先 分 配 好。 不 。 误 码 。 右 侧 为 中 断后 执行 的 程序 权 级 提升 ， 需 要 切换 
过 ， 目 前 的 操作 系统 一 般 都 只 使 用 Ring3 和 Ring0 两 级 。 到 高 权 级 的 栈 〈 内 核 栈 ) ， 则 需要 一 并 将 之 前 用 户 态 

当 线 程 执行 了 系统 调用 ， 或 者 由 于 任何 其 他 原 ”的 栈 指 针 也 压 入 内 核 栈 。 

因 进 入 内 核 态 运行 时 ，CPU 首 先 自动 提升 权限 到 对 应 值得 一 提 的 是 ， 上 述 的 保存 现场 过 程 ， 由 CPU 硬 
级 别 比 如 Ring0 (具体 提升 到 哪 一 级 ? 见 下 面 的 提示 — 件 自动 完成 ， 但 是 CPU 并 不 会 将 通用 数据 寄存 器 ( 比 
ME) ， 然 后 CPU 根据 TR 寄 存 器 找到 TSS 表 ， 然 后 从 中 ”如 EAX、EBX 等 ) 也 自动 保存 ， 这 些 通用 寄存 器 的 
读 出 与 Ring0 对 应 的 ESP0 和 SS0 指 针 ， 将 其 装 入 ESP 和 ” 值 ， 像 普通 函数 调用 过 程 一 样 ， 会 由 被 调用 者 (内 核 
SS 寄存 器 ， 此 时 该 线程 后 续 的 运行 将 会 使 用 其 内 核 栈 ”代码 ) Push 到 当前 的 内 核 栈 上 ， 返 回 时 再 弹出 ， 因 为 
来 存放 局 部 变量 和 函数 调用 参数 、 返 回 值 等 。 之 后 ， 被 调用 程序 在 运行 时 并 不 一 定 会 将 所 有 通用 寄存 器 全 
CPU 必须 将 用 户 态 代 码 系统 调用 指令 之 后 的 那 条 指令 ”部 征用 ，CPU 全 都 保存 的 话 不 划算 ， 由 被 调用 程序 自 
的 地 址 〈EIP 寄 存 器 的 值 ) 以 及 代码 段 选择 子 寄存 器 。” 主 控制 更 灵活 ， 征 用 哪个 就 压 栈 哪个 ， 更 好 。 

(CS 寄存 器 值 )、SS 和 SP 寄存 器 值 以 及 EFLAGS 执 另外 ，CPU 也 并 不 会 主动 压 入 EBP 寄 存 器 ， 因 为 
行 状态 标志 寄存 器 的 值 保 存 (Push 入 栈 ) 到 该 线程 — 并 不 是 所 有 程序 都 用 到 EBP 寄 存 器 ， 程 序 可 以 完全 不 
当前 的 内 核 栈 中 ， 这 个 过 程 与 函数 调用 过 程 ( 见 第 5 ”使 用 EBP， 在 第 5 章 中 介绍 过 ， 程 序 可 以 先 给 EBP 寄 存 
ж) 所 做 的 类 似 ， 只 不 过 函数 调用 使 用 的 是 同一 个 ”器 写 入 当前 栈 帧 的 基地 址 ， 然 后 使 用 ebp+offset 的 方 
栈 。 这 预示 着 ， 当 内 核 代码 完 成 任务 返回 时 (用 iret — 式 寻 址 ， 这 样 更 加 便捷 。 也 就 是 说 ，EBP 寄 存 器 的 值 
指令 ) ， 将 弹出 (Pop 出 栈 ) 这 5 个 寄存 器 值 然 后 继 ”是 可 以 被 程序 任意 指定 的 ， 只 是 作为 程序 自己 自主 使 
续 执行 该 线程 的 用 户 态 代 码 ， 由 于 被 弹出 的 CS 寄存 。 用 的 ， 相 当 于 一 个 变 址 寄存 器 。 但 是 代码 完全 可 以 使 
器 值 中 的 DPL=3， 所 以 后 续 自 然 就 运行 在 用 户 态 了 ， 用 比如 esp-offset， 或 者 直接 用 绝对 地 址 。 所 以 ，CPU 
这 就 是 iret 会 自动 降级 (或 者 平 级 ) 运行 的 原因 。 考虑 到 通用 场景 ， 不 主动 压 入 EBP， 而 是 向 其 他 通用 

这 还 不 够 ， 试 想 一 下 ， 既 然 该 线程 的 内 核 代 码 与 ”寄存 器 一 样 ， 让 内 核 态 程序 决定 是 否 压 入 ， 如 果 当 前 
用 户 态 代 码 使 用 不 同 的 栈 ， 那 么 CPU 运行 内 核 态 代码 ”的 操作 系统 被 设计 为 使 用 EBP 寄存 器 〈 这 也 是 普遍 情 
时 ， 其 SS、ESP 寄 存 器 中 存储 的 会 是 内 核 栈 的 指针 ， W) ， 那 么 内 核 程序 就 需要 执行 push 指 令 来 于 入 不 
那么 之 前 用 户 态 栈 的 指针 会 被 覆盖 掉 ， 如 果 不 将 其 预 。” 妨 称 之 为 软 压 入 ) 。 比 如 对 于 Linux 操 作 系 统 ， 其 发 
先 保存 起 来 ， 将 来 内 核 态 执 行 完 返 回 用 户 态 时 ， 将 不 ” 生 中 断 、 系 统 调用 等 之 后 ， 内 核 程序 会 使 用 SAVE_ 
知道 用 户 态 的 栈 在 哪里 ， 那 就 会 丢失 用 户 态 部 分 的 上 ”ALL 这 个 宏 ( 见 5.5.4.2 节 结尾 ) 来 保存 那些 没有 由 
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CPU 自动 压 入 《〈 不 妨 称 之 为 硬 压 入 ) 的 寄存 器 ， 而 在 
返回 用 户 态 时 ， 内 核 程序 也 需要 先 使 用 软 弹 出 来 恢复 
之 前 被 软 压 入 的 寄存 器 值 ， 然 后 使 用 iret 指 令 触发 CPU 
进行 硬 弹出 剩余 的 、 当 初 被 硬 压 入 的 寄存 器 值 ， 最 
终 返回 用 户 态 。 在 Linux 中 ， 使 用 RESTOR_ALL 这 个 
宏 来 执行 软 弹出 。 可 以 在 下 面 的 代码 中 看 到 ，Linux 
保存 了 EBP， 以 及 其 他 的 所 有 通用 寄存 器 值 ， 这 说 明 
Linux 及 其 应 用 程序 代码 都 使 用 了 EBP 来 寻 址 ， 另 外 也 
说 明 Linux 下 的 中 断 服务 程序 在 运行 的 时 候 会 征用 所 
有 的 通用 寄存 器 。 由 CPU 自主 压 入 或 者 说 硬 压 入 的 上 
下 文 可 以 被 称 为 硬件 上 下 文 ， 由 接 下 来 运行 的 软件 代 
码 主动 执行 push 或 者 mov 指 令 来 压 入 栈 的 上 下 文 可 以 
被 称 为 软件 上 下 文 。 


#define SAVE_ALL\ 


#define RESTORE_ALL\ 


cld; V рор! %ebx; V 
pushl 96es; V popl 96ecx; V 
pushl 96ds; V popl %еах; V 
pushl 96eax; V рор! %esi; V 
pushl фебр; V рор! %edi; V 
pushl %еаї; V popl 96ebp; V 
pushl 96esi; V popl 96eax; V 
pushl 96edx; V popl 96ds; V 
pushl %есх; V рор! %еѕ; V 
pushl 96ebx; V ада! $4,%езр; V 
том! 5( КЕНМЕІ 05),%едіх; їгеї; 

\ 

том! федх,%а5; V 

том! федх,%е5; 


正 因 如 此 ，TSS 中 并 不 会 保存 内 核 栈 的 EBP 值 ， 
不 存在 所 谓 EBP0/1/2， 因 为 EBP 是 程序 运行 时 动态 指 
定 的 。 也 就 是 说 ， 程 序 如 果 被 中 断 ， 进 入 内 核 态 执 行 
后 ， 内 核 程序 代码 会 mov esp ebp， 将 当前 的 栈 顶 值 赋 
给 EBP， 继 续 运 行 。 如 图 10-51 所 示 ， 左 侧 为 Windows 
下 某 系统 调用 服务 程序 的 汇编 代码 ， 右 上 为 Windows 
下 的 IPI (Inter Processor Interrupt， 中 断 服 务 程 序 ) (Ç 
码 ， 右 下 为 Windows 下 的 时 钟 中 断 服 务 程序 代码 ， 可 
以 看 到 其 在 初始 处 没 过 多 久 都 会 执行 mov ebp, esp 这 
一 句 ， 其 意思 就 是 把 esp 的 值 赋 给 sbp。 所 以 ，EBP 寄 


nt IKiTrap00 


hal!HalpIpiHandler: 
80259830 54 
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存 器 完全 是 一 个 程序 运行 过 程 中 可 以 任意 改变 的 、 用 
于 方便 自己 寻 址 的 寄存 器 ， 其 值 并 不 具有 系统 级 的 意 
义 ， 本 质 上 与 通用 寄存 器 地 位 相等 。 

再 说 回来 ， 完 成 了 上 述 CPU 自主 的 压 栈 操作 之 
后 ，CPU 根 据 系统 调用 号 执行 对 应 的 系统 调用 服务 程 
序 ， 进 入 后 续 内 核 代 码 运行 。 

被 中 断后 CPU 自动 提升 Ring 级 别 ， 可 是 ， 有 4 
种 级 别 ，CPU 怎 么 知道 自己 该 从 Ring3 提 升 到 Ring 
LR? 谁 来 决定 ? 这 个 问题 ， 我 们 会 在 后 面 章节 
中 介绍 。 基 本 思路 是 : CPU 收 到 中 断 ， 或 者 系统 
调用 指令 之 后 ,会 去 IDT 中 寻找 一 道 阅 门 来 穿越 ， 
闸门 上 的 DPL 字 段 会 明确 表明 当前 这 道门 后 面 的 
代码 是 Ring 几 的 权 级 。 每 个 门 的 权 级 也 是 由 操作 
系统 在 初始 化 设置 这 些 门 时 定义 好 的 。 当 然 ， 你 
看 到 这 里 可 能 依然 是 一 头 雾 水 ，“ 门 ”是 什么 东 
西 ? 我 们 下 文 再 介绍 。 


10.2.1.2 线程 和 中 断 上 下 文 


上 述 中 断 、 系 统 调 用 过 程 中 ， 并 没有 发 生 任务 
切换 ，CPU 执 行 的 仍然 是 同一 个 线程 ， 只 不 过 换 到 内 
核 态 执行 了 。 这 就 相当 于 ， 你 去 银行 窗口 办 理 存 款 业 
务 〈 向 文件 中 写 入 数据 ) ， 你 完全 看 不 到 操作 员 是 如 
何在 银行 系统 里 操作 的 ， 你 能 看 到 的 只 是 一 个 窗口 ， 
你 所 能 做 的 只 是 填 好 一 个 单子 〈 系 统 调用 参数 ) 然 
后 交 给 操作 员 (系统 调用 ) 。 之 后 ， 在 窗口 外 面 的 
你 就 只 能 等 待 〈 被 阻塞 暂停 执行 ) 操作 员 的 下 一 步 
提示 ， 而 操作 员 在 窗口 里 在 做 什么 你 是 不 知道 的 。 
此 时 ， 操 作 员 仍然 在 为 你 的 存款 业务 服务 ， 也 就 是 仍 
然 处 于 你 这 个 业务 的 上 下 文中 ， 只 不 过 正在 走 银行 内 
部 流程 (内 核 态 ) 。 作 为 用 户 的 你 ， 虽 然 可 能 知道 银 
行内 部 会 有 某 流程 ， 某 函数 ， 但 是 你 是 不 可 能 跟 操作 
员 说 “你 需要 单 击 哪个 按钮 ， 然 后 单 击 哪个 下 拉 框 ” 
的 ， 用 户 态 无 法 直接 调用 内 核 态 的 函数 ， 因 为 有 防弹 
玻璃 挡住 了 CPU 判断 CPL 值 高 于 你 想 触 碰 的 段 、 入 口 
的 DPL 值 ) ， 你 也 无 法 将 DPL 值 改 大 从 而 突破 屏障 ， 因 


0 
80882378 бай! push 0 
a push esp 
HS es m, уота ptr [eeps2].0 ЕКЕНДІ рчар S 
x | = | 80а59832 53 Push ebx 
80882284 57 Push edi 80259833 56 push езі 
80882385 0fa0 push 80259834 57 push edi 
80884387 bb30000000 nov ери. 30h 80а59835 83ec54 sub esp. 54h 
8088а38# 648Б1200000000 mov ebx-dvord ptr fs:[0] 80а59838 8bec nov ebp.esp -qmm 
80882396 53 push ebx 
80885397 83eco4 Sub csp- nai iBaipciockIsts 2 
азда розі бок вал! На. OckInterrupt: 
60882126 52 | LE (80258754 54 push esp 
8088а394 1e push ds 802858755 55 push ebp 
ЊЕ 06-2 push се 180258756 53 push ebx 
80a58757 56 push esi 
8088аЗа5 83ес30 sub esp. 30h |В0а58758 57 push i 
mam r WE 80a58759 83ec54 sub esp, 54h 
8088a3ab 668ес0 Я 
80882322 bee d 80a5875c 8bec nov ebp. esp —— 
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为 只 有 从 窗口 内 部 才能 改 〈 对 应 的 数据 位 于 地 址 空间 
中 的 内 核 区 ，CPU 访 问 页 表 项 时 会 匹配 权限 ) ;你 也 无 
法 将 你 身上 的 CPL 牌 号 〈 位 于 CS 寄存 器 中 ) 的 值 改 小 ， 
因为 CPU 会 禁止 Jmp CS: 全 直 接 跳 转 到 高 特权 级 的 CS。 
所 以 ， 你 往 哪里 走 都 走 不 到 窗口 内 部 ， 都 是 封 死 的 。 

当 线 程 执行 了 系统 调用 后 ， 进 入 内 核 态 代码 执 
行 ， 但 是 此 时 依然 是 在 运行 这 个 线程 ， 运 行 的 内 核 态 
代码 也 是 在 为 该 线程 服务 ， 比 如 读 取 文件 、 网 络 收发 
数据 等 。 人 们 将 CPU 处 在 用 户 态 运行 用 户 线程 或 者 进 
入 内 核 态 为 当前 用 户 线程 服务 的 系统 调用 的 状态 ， 称 
为 线程 上 下 文 。 线 程 上 下 文 状态 可 以 处 于 用 户 态 ， 也 
可 以 处 于 内 核 态 。 一 个 线程 的 上 下 文 处 于 内 核 态 执行 
时 ， 又 被 称 为 该 线程 陷入 〔Trapped) 了 内 核 ， 其 用 户 
态 部 分 被 冻 住 暂停 ， 深 陷入 内 核 ， 上 面 的 用 户 态 部 分 
无 法 动弹 ， 所 以 具有 “陷入 ”的 既 视 感 。 

但 是 ， 假 设 操作 员 正 在 给 你 办 理 存 款 〈 位 于 该 存 
款 线程 上 下 文中 的 内 核 态 部 分 ) ， 但 是 突然 他 旁边 的 
同事 喊 他 过 去 处 理 一 个 银行 内 部 的 突 发 事情 ， 存 款 这 
个 线程 必须 被 中 断 。 上 文中 说 过 ， 发 生 中 断 时 ，CPU 
必须 自主 完成 对 一 部 分 上 下 文 信息 的 压 栈 ， 由 于 是 在 
CPU 运行 内 核 态 代码 时 被 中 断 ， 中 断 之 后 还 是 运行 内 
核 态 代码 〈 银 行内 部 的 突 发 事情 ) ， 所 以 其 权 级 没有 
变动 (CPU 会 根据 中 断 向 量 所 指向 的 入 口 处 的 DPL， 
与 当前 的 CPL 相 比较 而 得 出 结论 ) ， 所 以 CPU 只 把 存 
款 线程 当前 的 CS、EIP 和 EFLAGS 寄 存 器 值 压 入 当前 
线程 内 核 栈 中 ， 而 不 是 像 系统 调用 时 那样 需要 把 用 户 
态 的 SS 和 ESP 也 压 栈 。 

CPU 保存 了 当前 内 核 程序 的 上 下 文 之 后 ， 就 开始 
执行 中 断 服务 程序 。 值 得 一 提 的 是 ， 中 断 服务 程序 做 
的 事情 ， 与 当前 正在 执行 的 线程 可 能 毫 无 关系 ， 比 
如 ， 当 前 操作 员 正 在 办 理 存 款 ， 但 是 却 突然 被 别人 叫 
走 处 理 了 一 点 儿 和 急事 。 既 然 如 此 ， 中 断 服务 程序 运行 
的 时 候 ， 是 否 需 要 单独 再 为 其 设置 一 个 独立 栈 空 间 
呢 ? 比如 叫 作 中 断 栈 。 可 以 。 但 是 也 可 以 用 另外 一 种 
做 法 ， 中断 服 务 程序 直接 利用 当前 线程 的 内 核 栈 来 当 
作 自 己 的 栈 用 ， 栈 中 原先 被 压 入 的 数据 依然 保留 ， 中 
断 服务 程序 在 现 有 栈 指针 基础 上 接着 使 用 栈 ， 用 完 后 
清理 归还 即 可 。 中 断 服务 程序 这 样 做 ， 难 道 用 户 线程 
没有 意见 么 ? 我 来 办 理 业务 ， 我 用 我 的 用 户 栈 ， 和 我 
对 口 的 操作 员 用 他 的 内 核 栈 ， 但 是 这 两 个 栈 都 为 我 而 
服务 的 ， 现 在 却 让 一 个 毫 无 关系 的 中 断 服务 程序 给 霸 
ШТ? 这 就 像 我 花 钱 租 了 个 车 ， 结 果 司 机 半路 却说 他 
有 点 儿 急 事 想 顺路 开车 回 家 拿 东 西 ， 于 是 我 先 睡 一 
觉 ， 他 拉 着 我 转 了 半天 ， 办 完了 私事 ， 然 后 再 拉 我 去 
目的 地 一 样 ， 这 期 间 我 租 的 车 被 他 临时 借用 了 一 下 。 
但 又 能 如 何 ? 只 能 如 此 ， 谁 让 内 核 可 以 为 所 和 欲 为 呢 ? 
所 以 ， 中 断 时 CPU 正在 运行 哪个 线程 ， 哪 个 线程 的 内 
核 栈 就 会 被 随后 执行 的 中 断 服务 程序 征用 一 段 时 间 然 
后 归还 。 可 以 认为 中 断 服务 程序 “ 蹦 ” 了 当前 用 户 线 
程 的 内 核 栈 空间 。 


提示 > 


早期 的 Linux 版 本 处 理 中 断 时 直接 蹲 栈 ; 后 
来 ， 系 统 功能 变 得 越 来 越 复杂 ， 怕 当前 线程 的 内 核 
栈 空间 不 太 够 用 ( 一 开始 只 有 不 到 4KB， 后 来 版 本 
升级 到 8KB。64 位 操作 系统 则 是 16KB ) 而 溢出 ， 所 
以 中 断 服务 程序 运行 初始 时 依然 蹲 栈 ， 但 是 运行 之 
后 会 主动 创建 一 个 独立 的 中 断 栈 ， 然 后 切换 到 该 中 
断 栈 继续 运行 。 


上 述 这 个 过 程 被 描述 在 图 10-52 中 的 前 5 步 ， 为 简 
化 起 见 ， 图 中 所 示 的 设计 采用 了 蹦 栈 方式 。 

中 断 服务 程序 不 隶属 于 任何 一 个 用 户 线程 〈 当 
然 ， 有 些 时 候 中 断 服 务 程序 本 身 可 能 是 一 个 内 核 线 
程 ) ， 它 自 成 一 派 ， 做 着 与 用 户 线程 没什么 直接 关系 
的 事情 。 比 如 ， 时 钟 中 断 到 来 时 ， 运 行 do_timer() 函 
数 ， 其 中 会 有 一 步 是 将 系统 当前 的 时 间 值 记录 下 来 ， 
这 个 时 间 值 又 可 以 被 用 户 程序 通过 系统 调用 来 获取 
到 ; 再 比如 网 卡 收 到 数据 包产 生 的 中 断 ， 其 需要 运行 
网 卡 驱动 注册 的 中 断 服务 程序 ， 这 个 过 程 与 用 户 线程 
并 无 直接 关系 ， 虽 然 这 个 数据 包 最 终 可 能 会 被 发 送 给 
某 个 用 户 线程 ， 但 是 网 卡 的 中 断 服 务 程序 在 接收 该 数 
据 包 的 时 候 是 根本 不 知道 该 包 属于 哪个 线程 的 ， 它 只 
是 默默 地 将 数据 包 收 入 并 登记 好 而 已 ; 当然 ， 有 些 中 
断 处 理 过 程 ， 比 如 缺 页 导致 的 中 断 ， 对 应 的 中 断 服务 
程序 会 将 页 面 准 备 好 ， 这 件 事情 的 确 算是 服务 于 当前 
用 户 线程 的 ， 但 只 是 特例 。 正 因 如 此 ， 人 们 将 CPU 执 
行 中 断 服务 程序 的 这 期 间 称 为 中 断 上 下 文 ， 其 是 独立 
于 线程 上 下 文 的 一 个 状态 。 位 于 中 断 上 下 文 时 ， 系 统 
也 一 定 处 在 内 核 态 ， 也 就 是 处 在 高 权 级 运行 状态 ， 所 
有 用 户 线程 的 用 户 态 部 分 都 是 暂停 状态 。 但 是 反 过 
来 ， 系 统 处 在 内 核 态 ， 并 不 一 定 表示 系统 处 于 中 断 上 
下 文中 ， 也 有 可 能 是 线程 上 下 文中 。 

中 断 上 下 文 时 运行 的 是 操作 系统 内 核 态 的 程序 
代码 ， 内 核 态 程序 使 用 的 也 是 虚拟 地 址 来 访问 内 核 
数据 区 ， 也 需要 经 过 MMU 的 地 址 翻译 ,查找 内 核 
页 表 。 前 文中 介绍 过 ， 每 个 线程 的 页 表 的 高 位 都 有 
一 个 内 核 页 表 区 ， 而且 所 有 线程 的 内 核 页 表 区 指向 
的 都 是 同样 的 物理 页 面 。 所 以 ,不 管 当前 正在 执行 
哪个 用 户 线程 ， 发生 了 中 断 之 后 ，MMU 都 可 以 通 
过 当前 的 CR3 寄 存 器 顺藤摸瓜 找到 中 断 服务 程序 所 
访问 的 物理 页 面 。 


我 们 继续 考察 图 10-52 中 的 第 5 步 。 当 中 断 服务 程 
序 处 理 完毕 要 退出 时 ， 会 采用 iret 指 令 来 返回 到 中 断 
前 的 程序 继续 执行 。iret 指 令 执 行 时 的 译 码 逻辑 相当 
复杂 ， 该 指令 需要 判断 非常 多 的 状态 ， 比 如 当前 处 
于 内 核 态 还 是 用 户 态 ， 返 回 之 后 的 程序 处 于 内 核 态 


раж 115 ss 


第 10 章 计算 机 操作 系统 


АЕ БА И ЗЕ — [АТ Mh ‘HEHE 065-0164 
"SERITUR kuu al FARE 


HAHEI 


эй 
ЕТ 
dod 


د 
3 
د 
3 
3 
ш‏ 
8= 
nd‏ 
qu‏ 
SN‏ 
әл‏ 


САЯНЫ ӘӘ HENEM ИАЕА Әә занын» сәннен ELE] 


БЕШТЕН 


азам 


四 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


还 是 用 户 态 ， 如 果 是 从 内 核 态 返回 到 内 核 态 ， 权 级 
不 变 ， 那 么 栈 空 间 也 就 不 会 变 ， 所 以 就 可 以 判断 出 
当前 栈 中 只 保存 了 被 中 断 前 程序 的 EIP/CS/ EFLAGS 
这 三 个 ， 于 是 就 只 自主 弹出 这 三 个 值 ， 而 如 果 是 从 
内 核 态 返回 到 用 户 态 ， 那 么 CPU 就 知道 当前 栈 中 一 
定 保存 了 被 中 断 前 用 户 态 程序 的 EIP/CS/EFLAGS/ 
ESP/SS， 也 就 是 需要 自主 弹出 这 5 个 值 ， 由 于 弹出 
后 的 CS 寄存 器 中 的 CPL 字 段 为 Ring3， 该 信号 会 控 
制 CPU 运 行 在 Ring3 级 别 ， 从 而 成 功 降级 ， 在 受 保护 
的 前 提 下 继续 从 EIP 处 执行 被 中 断 前 的 用 户 态 代码 。 
iret 还 需要 判断 其 他 一 些 状态 ， 下 文 再 继续 介绍 。 

了 解 了 上 述 机 制 ， 再 来 看 第 5 步 。 中 断 服务 程序 
执行 完 后 在 其 结尾 会 使 用 pop 指 令 将 原来 压 栈 的 寄存 
器 值 弹 回 对 应 寄存 器 ， 然 后 就 执行 iret 指 令 ， 该 指令 
会 让 CPU 硬件 主动 地 从 栈 中 依次 弹出 EFLAGS、EIP 
和 CS 值 ，iret 指 令 的 译 码 过 程 会 检查 EFLAGS 中 的 对 
应 标志 〔 比 如 NT 标志 等 ， 下 文 介绍 ) ， 以 及 检查 CS 
中 的 CPL 位 ， 判 断 其 与 当前 CS 寄存 器 (尚未 被 弹出 
的 CS 值 覆盖 ) 中 的 CPL 值 是 否 : @ 当 前 值 与 弹出 值 
相同 而 且 都 是 内 核 态 ? @ 当 前 值 小 于 弹出 值 ? @ 4 
前 值 大 于 弹出 值 ? 根据 上 述 不 同 的 结果 ， 会 有 不 同 
的 动作 。 

如 果 是 第 一 种 情况 ， 那 么 CPU 硬件 电路 不 会 继续 
从 栈 中 弹出 后 续 条 目 〈CPU 根 本 也 不 知道 栈 中 还 有 什 
么 东西 ， 它 只 根据 CPL 值 匹配 上 述 哪 种 情况 来 决定 从 
栈 中 弹出 几 个 东西 ) ， 遂 直接 将 弹出 的 值 装 入 对 应 寄 
存 器 然后 运行 ， 也 就 返回 到 了 中 断 前 的 程序 (在 这 里 
是 返回 到 系统 调用 服务 程序 ， 之 前 它 被 中 断 了 ) 。 

如 果 是 第 二 种 情况 ， 则 证 明 当 前 位 于 内 核 态 
要 返回 到 用 户 态 ， 那 就 必须 从 栈 中 依次 再 弹出 两 个 
东西 ， 也 就 是 ESP 和 SS， 装 入 对 应 寄存 器 ， 然 后 继续 
执行 ， 也 就 返回 到 了 用 户 态 程序 执行 。 这 一 步 如 图 
10-52 中 的 第 7 步 所 示 ， 当 系统 调用 程序 完成 任务 之 后 
要 返回 时 ， 也 需要 使 用 iret 指 令 。 实 际 上 ， 外 部 硬件 
导致 的 中 断 、 系 统 调用 (用 户 程序 主动 发 起 的 软 中 
Wî, int 80h/sysenter/syscall 指 令 ) 、 异 常 导 致 的 中 断 
等 ， 这 些 都 属于 中 断 ， 对 应 的 中 断 服务 程序 运行 完 
后 ， 统 一 使 用 iret 指 令 来 返回 ， 依 靠 iret 指 令 的 译 码 罗 
辑 和 之 前 压 入 栈 中 的 各 种 字段 的 值 来 判断 “从 哪里 返 
回 到 了 哪里 ”， 以 此 为 据 ， 决 定 从 栈 中 弹出 几 个 东西 
来 ， 弹 完 之 后 就 直接 按照 EIP 指 针 继续 运行 了 。 

如 图 10-52 所 示 的 过 程 为 一 个 线程 在 陷入 内 核 态 
运行 时 被 中 断 。 那 么 如 果 是 在 用 户 态 运行 时 被 中 断 的 
话 ， 读 者 现在 应 该 可 以 自行 梳理 出 这 个 过 程 了 。 或 者 
一 开始 先进 入 内 核 态 ， 然 后 内 核 态 执行 完 又 返回 到 用 
户 态 ， 然 后 被 中 断 。 比 如 ， 假 设 办 理 过 程 中 操作 员 提 
示 你 在 某 个 单子 上 签字 (存款 线程 回 到 用 户 态 继续 执 
行 ) ， 你 正在 签字 ， 突 然 发 现 签字 笔 没 有 水 了 (产生 
Т Page Fault PM) ， 此 时 你 只 能 等 待 工作 人 员 换 一 
支 笔 或 者 注入 墨水 〈 重 新 分 配 物理 页 ， 或 者 如 果 是 之 


前 被 swap 了 则 重新 调 入 ) 然后 继续 。 在 这 个 过 程 中 ， 
CPU 必须 跳 转 到 页 面 错误 处 理 程 序 来 执行 。 图 10-53 
给 出 了 整个 流程 中 的 栈 变化 。 可 以 看 到 ， 栈 中 的 上 下 
文 随 着 系统 调用 /中 断 、 返 回 不 断 地 压 入 、 弹 出 ， 周 而 
复 始 。 
Еж» 

压 栈 时 不 一 定 要 用 push 指 令 ， 也 可 以 用 mov 指 
令 。Windows 操 作 系统 使 用 push， 而 Linux 则 使 用 
шоу. 另外 ， 从 图 10-53 中 可 以 看 出 ， 系 统 调用 服 
务 程序 不 会 对 eax 进 行 压 栈 ， 因 为 用 户 态 程序 发 起 
系统 调用 时 会 利用 eax 寄 存 器 来 存放 调用 参数 ,而 
系统 调用 服务 程序 会 使 用 eax 来 存放 返回 值 ， 所 以 
没 必要 对 它 进 行 保护 。 但 是 如 果 是 外 部 中 断 或 者 
异常 等 内 部 中 断 ， 则 对 应 的 中 断 服务 程序 需要 压 
栈 eax。 


上 面 我 们 介绍 了 一 个 线程 执行 系统 调用 后 陷入 
内 核 的 过 程 ， 以 及 一 个 线程 分 别 在 用 户 态 部 分 和 内 
核 态 部 分 运行 时 突然 被 中 断 之 后 发 生 的 事情 。 那 
么 ， 你 不 禁 会 问 ， 这 一 切 与 前 文中 介绍 的 TSS 结 构 有 
什么 关系 么 ? TSS 表 格 中 也 有 一 份 上 下 文 和 通用 寄存 
器 的 值 ， 它 们 和 图 10-53 中 的 栈 中 的 上 下 文 值 ， 有 什 
么 关系 ? 

Intel 推 荐 操作 系统 为 每 个 线程 都 设置 一 份 TSS 结 
构 ， 当 线程 运行 时 ，CPU 从 TSS 获 取 对 应 的 上 下 文 信 
息 并 将 这 些 信息 装 入 对 应 寄存 器 中 从 而 运行 对 应 线 
程 。 当 发 生 系统 调用 或 者 中 断 时 ，CPU 从 TSS 中 取出 
该 线程 的 内 核 栈 指针 装 入 栈 寄存 器 。 但 是 线程 运行 期 
间 产 生 的 新 上 下 文 信息 ， 并 不 会 被 记录 到 TSS 中 ， 而 
只 是 在 用 户 栈 、 内 核 栈 中 存放 。 上 文中 给 出 的 两 个 例 
子 ， 虽 然 线程 执行 系统 调用 ， 期 间 也 有 外 部 或 者 内 部 
中 断 产生 ， 但 是 并 没有 发 生 线程 切换 。 外 部 中 断 服务 
程序 期 间 ， 本 线程 处 于 暂 挂 状态 ， 虽 然 这 期 间 它 的 内 
核 栈 被 中 断 服务 程序 给 蹦 用 了 ， 但 是 即便 这 样 也 没有 
发 生 线程 切换 ， 中 断 返 回 之 后 依然 执行 的 是 原来 那个 
线程 。 

TSS 中 的 内 容 ， 会 在 线程 切换 时 发 生变 化 。 


10.2.1.3 ”任务 切换 机 制 


什么 时 候 会 发 生 任务 切换 ? 某 个 线程 执行 完了 想 
退出 (exit 也 是 一 个 系统 调用 ) ， 那么 一 定 会 发 生 任 
务 切换 。 如 果 某 个 线程 主动 要 求 暂停 执行 ， 比 如 调用 
sleep0， 内 核 也 会 执行 任务 切换 。 某 个 线程 执行 了 系 
统 调用 后 ， 也 有 可 能 发 生 任务 切换 ， 也 就 是 说 ， 某 线 
程 委托 内 核 做 某 件 事 ， 结 果 内 核 返 回 用 户 态 之 前 做 了 
任务 切换 ， 返 回 后 CPU 执行 的 不 是 这 个 存款 线程 了 ， 
而 可 能 变 成 其 他 的 比如 一 个 开户 线程 ， 存 款 线程 被 放 
到 一 边 儿 去 了 ， 择 机 重新 调度 它 运行 。 当 发 生 外 部 或 
者 内 部 中 断 时 ， 内 核 执行 完 中 断 服务 程序 后 ， 也 有 可 
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能 让 CPU 跳 到 另 一 个 线程 执行 。 这 看 上 去 好 像 没有 道 
理 ， 之 前 是 我 在 这 个 窗口 办 存款 业务 ， 赁 什么 一 阵 铃 
响 〈 时 钟 中 断 ) 或 者 操作 员 办 理 着 业务 时 突然 就 让 我 
去 一 边 儿 等 着 呢 〈 系 统 调用 执行 了 慢 速 IO 请 求 ) ? 
仔细 一 想 ， 其 实 有 道理 。 比 如 操作 员 办 理 存 款 业务 时 
需要 打印 表格 ， 结 果 打印 机 坏 了 ， 操 作 员 叫 人 去 维修 
打印 机 ， 这 个 过 程 非常 慢 ， 此 时 操作 员 让 你 在 一 边 儿 
等 着 ， 叫 下 一 位 用 户 前 来 办 理 业务 (该 业务 可 能 并 不 
需要 用 打印 机 ， 就 算 到 后 期 也 需要 用 打印 机 ， 那 也 可 
以 先 办 理 前 期 部 分 ) ， 也 是 人 之 常情 ， 这 样 可 以 充分 
节约 时 间 ， 而 不 是 操作 员 闲 在 那里 啥 事 儿 不 干 ; 另 
外 ， 就 算 喻 也 没 坏 ， 操 作 员 也 可 以 强行 让 你 去 一 边 儿 
等 着 ， 因 为 你 办 理 的 业务 时 间 太 长 ， 对 其 他 等 待 者 不 
公平 ， 用 户 体 验 很 差 ， 所 以 暂停 你 的 流程 ， 给 其 他 人 
也 办 理 办 理 ， 这 样 就 更 公平 。 

用 户 线程 是 否 可 以 主动 指定 要 切换 到 哪个 线程 ? 
比如 ， 你 办 完 存 款 业务 要 走 人 之 前 ， 从 等 待 区 拉 一 个 
你 顺眼 的 人 : “我 办 完了 ， 你 去 办 吧 ”， 岂 有 此 理 ? 
银行 不 是 你 家 开 的 ， 就 算是 你 家 开 的 ， 也 要 讲 文明 ， 
公平 公正 。 如 果 这 样 可 行 的 话 ， 岂 不 是 要 乱 套 ， 让 少 
数 几 个 线程 霸占 所 有 资源 ， 形 成 小 圈子 。 但 是 ，x86 
处 理 器 真 的 允许 这 样 做 ， 用 户 态 程序 使 用 Call 目标 
TSS 选 择 子 : 0 语句 就 可 以 切换 到 目标 任务 执行 ， 而 且 
目标 线程 还 可 以 继续 Call 其 他 线程 ， 形 成 嵌 套 。 但 是 
系统 却 并 不 会 被 这 个 小 线程 圈子 霸占 ， 因 为 当 发 生 中 
断 时 ， 内 核 可 以 强行 切换 到 其 他 线程 ， 所 以 ， 这 个 小 
圈子 只 是 自己 内 部 达成 了 一 致 的 先后 运行 顺序 而 已 ， 
并 不 意味 着 一 定 会 霸占 资源 。 这 就 像 你 办 完了 存款 
后 ， 希 望 男 一 个 人 去 办 理 下 一 个 业务 ， 但 是 此 时 窗口 
可 能 被 其 他 人 占用 了 ， 并 不 是 说 你 霸占 着 窗口 然后 把 
你 的 朋友 拉 过 去 强行 办 理 。 我 们 在 任务 嵌 套 一 节 中 将 
详细 介绍 这 个 机 制 。 

虽然 用 户 态 可 以 主动 切 到 目标 线程 ， 但 是 内 核 
态 拥 有 最 终 的 和 最 高 级 别 的 权利 来 管理 线程 ， 可 以 决 
定 切换 到 任何 一 个 线程 ， 至 于 让 哪个 线程 运行 ， 哪 个 
暂 挂 ， 是 内 核 线程 调度 算法 的 问题 ， 后 文中 再 介绍 。 
只 要 CPU 一 运行 内 核 程 序 ， 就 有 可 能 继而 发 生 任务 切 
换 。 如 果 让 内 核 永远 得 不 到 执行 的 机 会 ， 就 不 会 发 生 
任务 切换 ， 用 户 线程 就 可 以 永远 霸占 CPU 来 运行 它 自 
己 ， 但 是 这 是 不 可 能 发 生 的 ， 因 为 内 核 总 会 设置 时 钟 
中 断 每 隔 一 定 周期 就 触发 中 断 ， 从 而 进入 内 核 执行 。 
内 核 不 停 地 夺回 执行 权 ， 从 而 执行 各 种 管理 工作 。 如 
果 假 设 内 核 在 执行 任务 时 由 于 需要 关闭 了 CPU 对 中 断 
信号 的 响应 ， 但 是 返回 到 用 户 线程 之 前 忘 了 打开 中 断 
响应 ， 则 该 线程 可 能 真 的 会 一 直 霸 占 CPU， 除 非 线程 
主动 退出 或 者 执行 了 系统 调用 。 此 时 ， 整 个 系统 会 卡 
住 ， 只 有 这 一 个 线程 有 响应 。 当 然 ， 忘 了 开 中 断 就 返 
回 用 户 线程 一 定 是 内 核 的 bug 了 。 

这 种 让 所 有 线程 细 粒 度 分 时 运行 的 操作 系统 内 


核 ， 被 称 为 抢占 式 (Preemptive) 内 核 。 相 比 之 下 ， 
非 抢占 式 内 核 则 完全 依靠 线程 主动 退出 后 ， 内 核 才 
会 调度 其 他 线程 运行 。 值 得 一 提 的 是 ， 非 抢占 式 内 
核 并 不 是 不 允许 中 断 ， 而 是 即便 是 中 断 之 后 依然 返 
回 到 之 前 的 线程 。 同 理 ， 抢 占 式 内 核 也 并 不 是 说 每 
次 进入 内 核 出 来 之 后 都 会 发 生 线 程 切换 ， 毕 竟 ， 切 
换 线 程 代价 是 较 高 的 ， 因 为 需要 切换 到 一 个 新 的 TSS 
表 ， 并 从 中 读 出 所 有 上 下 文 然后 一 一 装 入 对 应 寄存 
器 ， 包 括 装 入 CR3 寄 存 器 新 线程 〈 如 果 该 线程 与 之 
前 的 线程 分 属 不 同 的 虚拟 地 址 空间 ， 比 如 不 同 进程 
中 的 两 个 线程 ) 的 页 表 基 地 址 切换 页 表 ， 这 会 导致 
TLB 缓 存 Flush， 然 后 花 相 当 的 时 间 去 预 热 〈 见 前 
文 ) ， 这 个 过 程 会 耗费 大 量 CPU 周期 ， 而 且 一 次 性 
TLB 命 中 率 低下 。 

有 些 时 候 一 定 会 发 生 线 程 切换 。 比 如 ， 某 个 线 
程 调用 了 C 运 行 库 中 的 read() 函 数 来 读 取 文件 ， 该 函 
数 底层 其 实 会 发 起 read 系 统 调用 委托 内 核 来 读 文件 ， 
内 核 将 VO 请 求 下 发 到 底层 通道 控制 器 的 VO 队列 中 之 
后 (这 个 过 程 详 见 第 7 章 7.1 节 ) ， 硬 盘 需 要 花费 相当 
一 段 时 间 来 执行 这 笔 1O， 不 管 是 机 械 硬 盘 还 是 固态 
硬盘 ， 后 者 需要 的 时 间 更 少 ， 但 是 相对 于 CPU 代 码 执 
行 的 速度 而 言 ， 后 者 就 显得 太 长 了 。 硬 盘 执 行 IO 这 
段 时 间 内 ， 该 干什么 呢 ? 该 线程 根本 无 事 可 做 ， 或 者 
这 样 ， 线 程 内 核 态 部 分 不 断 地 读 取 I/O 通 道 控制 器 相 
关 寄 存 器 的 状态 来 判断 该 笔 /O 是 否 已 经 执行 完毕 ， 
这 样 就 成 了 Polling 模 式 的 /JO 了 ( 见 第 7 章 7.1.1 节 〉， 
严重 浪费 CPU， 而 且 完全 没 必 要 。 更 好 的 办 法 是 ， 内 
核 将 IO 请 求 压 入 队列 之 后 ， 便 切换 到 另 一 个 线程 运 
行 ， 如 果 没有 可 用 线程 了 ， 那 么 起 码 还 会 有 一 个 Idle 
线程 ， 该 线程 不 断 发 送 让 CPU 执行 各 种 程度 休眠 的 相 
关 指令 ， 这 样 至 少 还 可 以 降温 省 电 。 

也 就 是 说 ， 当 内 核 执 行 了 一 些 慢 速 的 外 部 1/O 操 
Жа, РЕТ ИОА ЖЕНТ, WA 
就 会 切换 到 其 他 线程 运行 。 但 是 ， 也 不 排除 有 一 些 非 
常 快速 的 MO 操作 ， 内 核 会 等 待 JO 结 束 然后 返回 到 之 
前 的 线程 (也 有 可 能 依然 切换 到 其 他 线程 ， 这 得 看 内 
核 具 体 设计 和 考量 ) 继续 运行 。 

所 以 ， 假 设 线程 如 果 有 智能 ， 它 运行 的 时 候 会 祈 
祷 “ 多 给 我 点 儿 运 行 时 间 吧 ， 我 不 执行 系统 调用 ， 我 
也 不 退出 ， 千 万 别 把 我 从 CPU 目下 来 ! 但 愿 我 访问 
的 页 面 别 被 Swap 出 去 否则 又 要 陷入 内 核 了 ! ”， 即 便 
如 此 ， 它 也 最 多 获得 10ms 〈 操 作 系统 一 般 会 将 时 钟 中 
断 间隔 设置 为 10ms， 也 可 以 设置 为 其 他 值 ) 的 执行 时 
间 。 当 它 再 次 运行 时 ， 感 受 不 到 它 被 暂停 了 多 久 , 但 
是 可 以 通过 读 取 当 前 的 系统 绝对 时 间 来 与 上 次 运行 时 
保存 的 系统 时 间 来 估算 自己 被 暂 挂 了 多 久 。 所 以 如 果 
假设 宇宙 运行 在 一 台 计 算 机 上 ， 那 么 我 们 也 很 难 判 断 
某 时 刻 是 否 整个 宇宙 被 暂停 执行 了 ， 我 们 看 到 的 时 间 
可 能 并 非 绝对 时 间 。 


提示 > 

可 以 将 线程 设计 为 非 阻塞 IO 模式 ， 在 该 模式 
下 ， 线 程 在 调用 read() 时 给 出 对 应 的 参数 ， 比 如 
async， 或 调用 封装 好 的 async read()、aio_read() 等 
库 函 数 ， 内 核 将 HIO 压 入 队列 之 后 就 马上 返回 到 当 
前 线程 的 用 户 态 继续 执行 而 不 会 切换 到 其 他 线程 执 
行 ， 也 就 是 并 不 阻塞 用 户 态 线程 的 运行 。 但 是 该 模 
式 下 的 线程 必须 被 设计 为 异步 模式 ， 也 就 是 下 发 IO 
之 后 ， 还 没有 拿 到 数据 之 前 ， 线 程 用 户 态 部 分 依然 
可 以 继续 无 误 地 执行 下 面 的 代码 ， 也 就 是 说 线程 用 
户 态 的 后 续 代 码 并 不 依赖 上 一 次 IO 的 结果 ， 这 就 是 
所 谓 异 步 的 含义 了 。 然 后 内 核 采用 特殊 的 机 制 来 通 
知 用 户 线程 之 前 IO 的 数据 已 经 拿 到 了 或 者 已 经 完成 
了 。 用 户 线程 可 以 利用 非 阻塞 IO 调用 来 批量 先后 
发 出 多 笔 IO 请求， 这 样 可 以 将 底层 队列 填 满 ， 提 升 
符 吐 量 ， 所 以 这 种 方式 又 被 称 为 异步 IO 方式 ， 异 步 
IO 必须 使 用 非 阻塞 IO 调用 。 与 其 对 应 的 是 阻塞 IO 
调用 ， 也 就 是 默认 参数 下 的 情况 ， 用 户 线程 调用 了 
read() 或 者 write() 等 IO 函数 之 后 ， 线 程 的 下 一 句 代 
码 可 能 会 直接 利用 该 IO 的 结果 ， 那 么 它 调 用 read() 
之 后 ，IO 完 成 前 ， 就 必须 被 暂 挂 而 不 能 继续 执行 ， 
否则 会 出 错 ， 因 为 IO 还 没有 结束 ， 下 一 行 代码 会 取 
到 错误 的 数据 ; 抑或 下 一 行 代码 不 依赖 上 一 个 IO 的 
结果 ， 而 只 是 程序 员 为 了 省 事 而 使 用 阻塞 UO 调 用 罢 
了 。 阻 塞 IO 调用 模式 下 ， 线 程 只 能 发 送 一 笔 IO ， 
等 这 笔 1/O 结 来 之 后 ， 才 能 继续 做 其 他 事情 ， 比 如 
可 以 继续 再 次 发 送 一 笔 IIJO， 所 以 这 种 场景 又 被 称 
为 同步 IJO。 值 得 一 提 的 是 ， 非 阻塞 IO 调用 模式 下 
线程 虽然 可 以 继续 执行 ， 但 是 如 果 它 选择 不 继续 发 
送 IO， 而 是 等 上 一 笔 JO 完 成 后 再 发 送 下 一 笔 IO， 
那么 其 表现 上 也 是 同步 /0 方式 。 所 以 ， 有 这 样 几 种 
组 合 : 非 阻塞 调用 模式 + 异步 0 方式 ， 非 阻塞 调用 
模式 + 同步 /0 方式 ， 阻 塞 调用 + 同步 /0 方式 ( 阻塞 
调用 只 能 是 同步 /0 方式 ) 。 因 为 异步 IO 方式 开发 
起 来 有 些 复杂 ， 因 为 需要 一 些 机 制 去 判断 IO 是 否 完 
成 。 但 是 异步 IO 模式 的 效率 很 高 ， 能 够 充分 利用 资 
源 。 线 程 发 起 非 阻 塞 UO 调 用 之 后 ， 内 核 有 以 下 两 种 
处 理 方式 。 

(1) 非 阻塞 IO 系统 调用 之 后 ， 内 核 做 一 些 准 
备 之 后 立即 返回 到 用 户 线程 继续 执行 。 内 核 收 到 调 
用 之 后 其 实 是 将 1/O 任 务 派发 给 了 内 核 线程 来 执行 ， 
这 些 内 核 线程 俗称 worker 线 程 。 内 核 可 以 预先 创建 
一 些 worker 线 程 待命 ， 也 可 以 新 建 更 多 的 worker。 
后 续 的 IO 任务 ， 由 这 些 worker 线 程 来 处 理 ， 包 括 将 
JO 压 入 队列 等 过 程 。 这 些 内 核 线程 与 用 户 线程 一 起 
参与 调度 。 这 是 Linux 操 作 系统 的 常规 做 法 。 

(2) 非 阻塞 IO 系统 调用 之 后 ， 内 核 程序 一 直 
执行 到 把 IO 压 入 请 求 队列 之 后 ， 再 返回 用 户 态 继续 
执行 。 这 也 是 Windows 操 作 系统 的 常规 方式 。 


第 10 章 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 硬 四 二 


下 面 我 们 就 来 看 一 下 切换 线程 的 具体 做 法 是 什 
么 。x86 处 理 器 可 以 使 用 Jmp 指 令 直 接 实现 任务 切换 ， 
对 应 的 语法 是 ，Jmp 目标 TSS 选 择 子 : 0。 与 Jmp CS: 
JP 类 似 ， 只 不 过 offset 参 数 会 被 该 指令 的 译 码 逻辑 忽 
略 ， 所 以 直接 用 全 0 充当 即 可 。Jmp 指 令 的 译 码 也 是 比 
较 复 杂 的 ， 有 多 种 情况 需要 判断 。 译 码 逻 辑 如 何 判断 
给 出 的 选择 子 是 TSS 选 择 子 还 是 CS 选择 子 呢 ? 显然 需 
要 区 分 ， 翻 看 图 10-49，CPU 拿 着 给 出 的 选择 子 去 寻 址 
GDTILDT 读 出 对 应 的 描述 符 ， 译 码 逻 辑 就 是 根据 描述 
符 中 的 S 字 段 +Type 字 段 〈 如 图 10-54 所 示 ) 共同 判断 
出 当前 描述 符 到 底 是 什么 类 型 ，TSS 段 选择 子 对 应 的 
字段 值 为 : S=0; Type=1 0 B 1。 其 中 ，B 表 示 Busy， 
可 能 为 1 (被 切入 运行 时 ) 或 者 0 (被 切 出 时 ) 。 

所 以 ， 当 CPU 发 现 读 出 的 选择 子 的 S=0，Type=1 
0 0 1 时 《不 Busy) ， 便 认为 程序 是 想 让 它 切 换 任 务 
了 。 于 是 CPU 会 先 使 用 当前 TR 中 存储 的 CPL 字 段 与 
Jmp 指 令 中 给 出 的 目标 TSS 选 择 子 中 的 RPL， 以 及 读 
出 的 目标 TSS 段 描述 符 中 的 DPL， 做 权限 匹配 ， 还 记 
得 max{CPL, RPL} < DPL 这 个 规则 么 〔 详 见 10.1.4.2 
节 ) ? 匹配 不 通过 ， 则 产生 通用 保护 (General 
Protection, GP) 异常 ， 通过 ， 则 CPU 开始 正式 进入 
任务 切换 流程 。 首 先 ，CPU 将 当前 线程 的 上 下 文 信 
息 ， 也 就 是 CPU 电路 中 当前 的 所 有 段 选 择 子 寄存 器 和 
通用 寄存 器 的 值 、CR3 的 值 、EFLAGS 和 EIP 的 值 、 
EBP 和 ESP 的 值 ， 统 统 保存 到 当前 TR 寄存 器 所 指向 的 
(指向 的 仍然 是 切换 前 的 任务 的 TSS 表 〉 TSS 表 中 对 
应 位 置 ， 将 当前 线程 的 执行 状态 打包 保存 起 来 。 然 
后 ，CPU 将 Jmp 指 令 中 给 出 的 目标 TSS 段 选择 子 装 入 
TR 寄 存 器 ， 覆 盖 之 前 任务 的 TR 选 择 子 ， 然 后 将 之 前 
已 经 读 出 的 TSS 段 描述 符 副 本 (之 前 已 经 用 新 TR 值 读 
出 了 该 选择 符 用 于 权限 匹配 ， 只 不 过 那 时 候 还 没有 ， 
或 者 说 不 敢 装 入 TR 寄存 器 ， 因 为 还 不 知道 权限 是 否 匹 
配 ) 也 装 入 TR 寄存 器 中 不 可 见 部 分 备用 。 新 描述 符 被 
装 入 之 后 ，CPU 利 用 描述 符 中 给 出 的 TSS 表 基地 址 去 
寻 址 内 存 ， 然 后 从 表 中 读 出 新 任务 的 全 部 上 下 文 寄存 
器 值 ， 然 后 依次 装 入 对 应 寄存 器 ， 然 后 ， 放 开 电路 中 
各 部 件 的 写 使 能 ， 在 新 装 入 EIP 指 针 的 驱动 下 ，CPU 
开始 执行 新 线程 ， 如 果 再 次 发 生 切 换 ， 则 同样 执行 上 
述 过 程 切换 到 另 一 个 线程 。 

这 里 要 深刻 理解 的 一 点 ， 也 比较 难以 理解 的 一 点 
仍然 是 : 上 文中 介绍 的 用 户 栈 、 内 核 栈 中 所 保存 的 上 
下 文 ， 与 TSS 中 保存 的 上 下 文 ， 到 底 是 什么 关系 ? 下 
面 就 来 彻底 梳理 一 下 。 

如 图 10-55 所 示 ， 左 右 两 侧 分 别 为 : 内 核 在 系统 
调用 服务 程序 内 部 某 处 发 生 了 任务 切换 ， 比 如 在 发 出 
硬盘 IO 入 队 之 后 ， 以 及 内 核 在 执行 中 断 处 理 〈 缺 页 
中 断 ) 过 程 中 某 处 切换 了 任务 ， 假 设 该 缺 页 中 断 是 由 
于 之 前 的 物理 页 被 Swap 到 了 硬盘 ， 所 以 也 需要 发 出 硬 
盘 IIO， 于 是 内 核 决定 先 切换 任务 ， 同 时 让 硬盘 在 后 
人 台 慢 腾腾 地 执行 IO。 
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'Execute-Only, conforming, accessed 


Execute/Read, conforming 


Type Field Descriptor Description 
Decimal [и | 10 | 9 | 8 Туре 
€ | Ww | A 
0 0 0 0 0 Data Read-Only 
1 о | о | ој Data Read-Only, accessed 
2 0o|o|1|o Data Read/Write 
3 о [о [1 1 Data Read/Write, accessed 
4 0 1 0 0 Data Read-Only, expand-down 
5 от | ојл Data Read-Only, expand-down, accessed 
6 о | „| т |o Data Read/Write, expand-down 
7 [NI] ES i [EJ 1 Data Read/Write, expand-down, accessed 
c |» |А 
8 о | ој o 
о | ојл 
о |" | о 
о [1 1 
т | ојо 
1 0 1 
1 1 0 
1 1 1 


Execute/Read, conforming, accessed 


Execute-Only, accessed 


Execute/Read 


Execute/Read, accessed 


Execute-Only, conforming, accessed 


ЕВ ВИ ЕВ 


—|- |сјој-|- |ојојо|ј-|-|ојо|-|-|ојојко 


Execute/Read, conforming 


Execute/Read conforming, accessed 


用 户 段 类 型 ( S 位 =0 时 ) 一 览 
图 10-54 用 户 段 、 系 统 段 描述 符 的 Type 类 型 一 览 


任务 切换 时 ，CPU 将 当前 的 、 位 于 它 电路 内 部 
的 相关 寄存 器 保存 到 当前 线程 的 TSS 对 应 字段 中 。 
“CPU 内 当前 的 寄存 器 上 下 文 ”， 对 于 图 中 左 侧 场 
景 而 言 就 是 系统 内 核 服务 程序 的 执行 状态 ， 对 于 右 
侧 而 言 就 是 中 断 服务 程序 的 执行 状态 。 线 程 在 哪个 
时 候 被 切 出 ，CPU 就 保存 当前 的 上 下 文 ， 当 然 ， 上 文 
中 说 过 ， 用 户 态 部 分 执行 的 时 候 不 会 发 生 切 出 ， 用 
户 态 无 法 执行 Jap TSS: 0 指令 ， 因 为 对 应 的 TSS 选 择 
子 的 DPL=0〈 主 流 操作 系统 的 做 法 ) ， 而 用 户 线程 的 
CPL=3，CPU 会 报 异 常 。 所 以 ， 发 生 任务 切换 ， 都 是 
在 内 核 程 序 被 执行 的 时 候 ， 而 用 户 线程 可 能 由 于 : 系 
统 调用 、 主 动 提 出 要 切换 〈 还 是 系统 调用 ， 比 如 调用 
sleep0) 、CPU 被 外 部 中 断 、 出 现 了 异常 导致 的 内 部 中 
断 这 几 个 原因 而 进入 内 核 态 部 分 执行 ， 而 导致 被 切 出 。 
所 以 ， 线 程 被 切 出 时 ，CPU 保 存 到 TSS 中 的 ， 是 当前 线 


程 的 内 核 态 部 分 〈 可 能 是 上 述 任何 一 种 ) 的 上 下 文 。 

那么 当前 线程 的 用 户 态 部 分 的 上 下 文 不 用 保存 
4? 用户 栈 位 于 线程 虚拟 地 址 空间 顶端 ， 一 直 在 那 
儿 ， 切 出 后 没 人 会 动 ， 放 心 。 用 户 栈 的 各 种 动态 变化 
的 指针 会 在 陷入 内 核 态 时 被 保存 到 线程 内 核 栈 (CPU 
自主 压 入 SS/ESP/EFLAGS/CS/EIP 寄 存 器 ， 内 核 态 程 
序 用 指令 push 或 者 mov 压 入 通用 寄存 器 ) 。 内 核 栈 的 
指针 保存 在 哪里 ? TSS 的 ESP0 字 段 里 。 那 么 内 核 栈 里 
的 内 容 不 用 额外 再 保存 一 份 吗 ? 切换 线程 之 后 ， 之 前 
线程 内 核 栈 里 的 东西 没有 人 会 动 么 ? 被 覆盖 破坏 了 怎 
么 办 ? 没有 人 动 ， 因 为 每 个 线程 都 使 用 它 自己 独立 的 
内 核 栈 ， 被 切 出 去 的 线程 ， 其 内 核 栈 依然 留 在 那儿 ， 
内 核 栈 的 指针 被 保存 在 其 TSS 中 。TSS 选 择 子 以 及 TSS 
表 本 身 则 被 保存 在 内 核 的 任务 管理 数据 结构 中 ， 比 如 
Linux 就 是 task struct{ } 中 。 


舞台 幕后 的 工作 者 四 
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所 以 ， 每 个 线程 的 上 下 文 就 像 被 留 在 了 一 个 保 
险 箱 里 一 样 。 一 共有 三 个 保险 箱 : НАВ, ABR, 
TSS。 

用 户 栈 保险 箱 中 存放 着 对 应 线程 在 用 户 态 执行 
时 的 函数 调用 参数 、 返 回 地 址 等 上 下 文 ， 用 户 栈 保险 
箱 的 钥匙 (EBP) 又 被 存在 TSS 保 险 箱 中 ;用 户 态 部 
分 运行 时 不 断 变化 的 EIP/ESP/EFLAGS/CS/SS 寄 存 器 
(当然 ， 看 操作 系统 设计 ， 当 前 主流 操作 系统 由 于 使 
用 Flat 分 段 模式 ， 其 CS/SS 不 会 变化 ， 但 是 CPU 不 能 假 
设 所 有 OS 都 这 样 设计 ) 在 发 生 中 断 或 者 系统 调用 时 又 
被 保存 在 其 内 核 栈 保险 箱 中 。 

内 核 栈 保险 箱 里 存 有 对 应 线程 的 用 户 态 部 分 的 、 
在 系统 调用 或 者 中 断 之 后 由 CPU 自 动 保存 的 EIP/ESP/ 
EFLAGS/CS/SS 寄 存 器 、 上 下 文 寄存 器 以 及 由 内 核 态 
部 分 运行 时 被 压 入 的 通用 寄存 器 以 及 内 核 态 函 数 的 调 
用 参数 返回 地 址 等 上 下 文 信息 。 内 核 栈 这 个 保险 箱 的 
钥匙 (ESP0 字 段 ) 又 被 放置 到 TSS 这 个 保险 箱 里 。 

TSS 保 险 箱 存 有 开启 当前 线程 内 核 栈 保险 箱 的 钥 
Ë (ESPO) ， 以 及 开启 当前 线程 用 户 栈 保 险 箱 的 双 
钥匙 《SS/EBP) ， 但 是 这 一 对 钥匙 可 能 打 不 开 用 户 
栈 保险 箱 ， 因 为 随 着 用 户 线程 的 运行 ， 这 两 个 指针 可 
能 随时 变化 (当然 我 们 多 次 提 到 当前 主流 OS 采用 Flat 
分 段 ， 这 两 个 值 恒定 不 变 ) ， 是 一 对 废 钥匙 。 好 钥匙 
要 从 ESP0 指 向 的 内 核 栈 中 去 拿 〈iret 时 挨个 弹出 ) o 
TSS 中 还 存放 了 当前 线程 的 页 表 基 地 址 寄存 器 ， 其 控 
制 着 线程 赖 以 生存 的 容 身 之 地 ; 还 存放 着 线程 对 应 
的 LDTR 寄 存 器 值 ， 其 指向 着 GDT 中 的 LDT 描 述 符 ， 
根据 描述 符 中 的 基地 址 可 以 找到 线程 对 应 的 LDT， 用 
CS/DS/SS 等 段 寄 存 器 中 保存 的 选择 子 索 引 LDT 可 以 拿 
到 最 终 的 段 基地 址 。 而 TSS 中 恰好 也 保存 着 当前 线程 
内 核 态 执行 到 被 切 出 的 那 一 瞬间 时 的 各 个 段 选择 子 寄 
存 器 的 值 。 

TSS 中 保存 的 上 下 文 总 是 线程 内 核 态 部 分 的 上 下 
文 ， 而 线程 用 户 态 部 分 的 上 下 文 被 保存 在 用 户 栈 里 ， 
用 户 栈 自身 的 信息 又 被 保存 在 TSS 的 ESP0 所 指向 的 内 
核 栈 里 。 这 样 ， 整 个 上 下 文 就 完成 了 闭环 ， 相 互 指 
向 ， 形 成 链条 。 而 TSS 保 险 箱 的 钥匙 又 被 放 在 内 核 的 
任务 管理 相关 数据 结构 中 。 所 以 ， 只 要 先 打 开 TSS 这 
个 保险 箱 ， 就 能 找到 所 有 上 下 文 的 钥匙 ， 恢 复 和 重建 
之 前 线程 的 所 有 状态 ， 继 续 运行 。 可 以 说 TSS 浓 缩 了 
对 应 线程 的 整个 灵魂 ， 而 肉体 则 存在 于 内 存 中 。 

可 以 看 到 ， 每 个 线程 被 切 出 之 后 ， 其 运行 状态 总 
是 被 冻结 在 Jmp TSS: 0 指令 的 下 一 条 指令 处 (CPU 会 
将 当前 EIP+ 取 指令 宽度 后 的 值 保存 到 TSS， 如 果 考 虑 
到 CPU 硬件 流水 线 ， 会 更 加 复杂 ，Jmp 绝 对 跳 转 指令 
会 清空 流水 线 ， 之 前 不 一 定 预 执行 了 多 少 条 指令 ， 所 
以 CPU 需 要 计算 出 正确 的 Jmp 指 令 的 下 一 条 指令 的 EP 
值 ) ，Jmp 指 令 的 执行 会 冻结 当前 线程 的 一 切 状态 。 
那么 ， 很 显然 ， 当 该 线程 后 续 被 切换 回来 时 ，CPU 根 


据 TSS 装 入 对 应 的 寄存 器 值 之 后 ， 该 线程 会 从 Jmp 指 
令 的 下 一 条 指令 继续 运行 。 可 以 明确 的 一 点 是 ， 每 个 
线程 被 切换 回来 继续 运行 时 ， 依 然 处 在 该 线程 的 内 核 
态 部 分 。 

假设 某 个 线程 内 核 态 部 分 执行 的 是 缺 页 处 理 ， 
Page Im 操作 〈 从 硬盘 读 出 之 前 被 Swap 的 页 面 ) ， 发 出 
硬盘 IO 后 被 切 出 。 当 被 切 回 来 时 ， 缺 页 处 理 程序 继 
续 运 行 ， 将 从 硬盘 读 回 的 数据 填充 到 对 应 物理 页 中 ， 
然后 返回 用 户 态 代 码 继续 运行 。 这 里 有 个 问题 ， 如 果 
在 硬盘 IO 还 没 执 行 完 毕 之 前 ， 内 核 就 切换 回 这 个 线 
程 运 行 ， 会 发 生 什 么 ? 此 时 ， 之 前 准备 的 用 于 存放 硬 
盘 读 出 的 数据 的 缓冲 区 中 的 数据 可 能 是 旧 数据 〈 代 码 
选择 不 初始 化 ， 这 些 数据 可 能 是 之 前 其 他 线程 使 用 完 
释放 掉 内 存 而 留 下 的 ， 注 意 ， 释 放 内 存 并 不 等 于 去 把 
内 存 中 的 数据 清 零 ， 正 如 删除 文件 并 不 等 于 把 硬盘 上 
对 应 区 域 的 内 容 清 零 一 样 ) 或 者 全 0 代码 选择 初始 
化 ) ， 缺 页 处 理 程序 如 果 在 硬盘 IO 尚未 结束 之 前 就 
被 重新 调度 到 CPU 运行 ， 那 么 其 拿 到 的 当然 就 是 这 些 
旧 数 据 ， 用 户 态 程序 用 这 些 旧 的 垃圾 数据 来 处 理 ， 当 
然 就 会 出 错 。 

这 就 像 A 在 睡觉 之 前 告诉 B: “我 先 睡 会 儿 ， 请 
帮 有 我 把 茶水 倒 了 换 上 白水 ， 我 起 来 要 喝 ”。 而 B 还 没 
来 得 及 更 换 ，A 就 被 叫 醒 了 ， 然 后 抓 起 杯子 来 就 喝 ， 
喝 到 的 当然 还 是 茶水 。 如 果 有 这 样 一 种 机 制 : A 睡 觉 
前 向 系统 明确 注册 一 个 事件 ， 只 有 当 该 事件 达成 之 
后 ， 才 去 叫 醒 A， 否 则 让 A 继续 睡觉 ， 这 就 能 解决 问 
题 ， 我 们 下 文中 再 详细 介绍 。 所 以 可 以 明确 的 一 点 
是 ， 内 核 并 不 会 随机 地 调度 任务 到 CPU 上 运行 ， 是 有 
一 套 严 密 的 判断 规则 的 ， 比 如 谁 可 以 醒 ， 谁 不 能 醒 ; 
如 果 有 多 个 可 以 醒 的 ， 谁 先 醒 谁 后 醒 ， 等 等 。 

被 切换 回来 重新 执行 的 线程 一 定 会 从 其 内 核 态 
继续 执行 ， 比 如 上 述 的 缺 页 处 理 程序 ， 当 其 正确 地 填 
充 好 物理 页 之 后 ， 就 可 以 返回 用 户 态 执行 了 ， 也 就 是 
利用 iret 指 令 ， 该 指令 会 导致 CPU 从 内 核 栈 〈 而 不 是 
TSS) 中 弹出 用 户 态 的 上 下 文 寄存 器 ， 从 而 执行 用 户 
态 部 分 。 那 么 ， 如 果 在 执行 iret 指 令 之 前 ， 又 发 生 了 
任务 切换 怎么 办 ? 比如 收 到 了 外 部 时 钟 中 断 或 者 设备 
VOPR? 此 时 会 再 次 跳 到 时 钟 或 者 IO 中 断 服 务 程序 
运行 ， 有 可 能 当前 线程 又 会 被 切 出 去 ， 那 就 按照 上 述 
同样 过 程 处 理 。 

有 些 步骤 是 不 允许 被 中 断 的 ， 此 时 程序 可 以 使 用 
特殊 指令 关闭 CPU 对 中 断 的 响应 ， 我 们 后 文 再 介绍 。 


10.2.1.4 ЧЕ ЕЕ Е 


前 文中 的 那个 办 完了 业务 拉 他 的 朋友 排 在 他 后 
面 直接 去 办 理 的 场景 ， 冬 瓜 哥 对 其 进行 了 痛斥 。 但 是 
有 些 复杂 业务 ， 的 确 需要 多 个 线程 相互 配合 协作 才 
能 完成 ， 或 者 说 被 设计 成 如 此 。 比 如 ， 去 办 证 ，A 负 
责 填 一 堆 单子 按 一 堆 手印 ， 当 执行 到 某 处 时 ， 需 要 B 
线程 继续 走 完 下 面 的 流程 ， 然 后 再 回 到 A 继续 。 你 可 


会 问 ， 为 何不 把 A 和 B 直 接 做 到 一 个 线程 中 ? 也 不 
是 不 可 以 ， 但 是 有 时 候 的 确 两 个 独立 的 线程 会 有 更 好 
的 隔离 度 。 此 时 需要 一 种 机 制 ， 能 够 让 A 明确 指定 运 
行 B，B 运 行 完 也 必须 返回 A， 而 且 B 运 行 时 A 不 能 运 
行 。 也 就 是 ， 线 程 A 调用 了 线程 B。x86 处 理 器 可 以 使 
用 Call 目标 TSS 选 择 子 : 0 的 语法 来 切换 到 目标 TSS 对 
应 的 线程 (用 Jmp 指 令 来 切换 线程 不 会 导致 嵌 套 )。 
但 是 这 并 不 代表 A 在 Call 了 B 之 后 ，B 就 立即 会 运行 ， 
否则 B 如 果 再 Call С, HERKE КЕ, СРО 
这 个 业务 流程 全 部 霸占 。 实 际 上 ， 人 外 部 时 钟 中 断 的 到 
来 可 以 保证 足够 公平 ， 假 设 A-B-C-D 是 一 个 嵌 套 的 任 
务 调用 链 ， 而 E 和 F 是 两 个 独立 的 、 不 与 任何 其 他 线程 
构成 嵌 套 关系 的 线程 ， 那 么 时 钟 中 断 之 后 ， 内 核 可 能 
会 从 D 线 程 切换 到 EIF 中 的 一 个 来 执行 ， 但 是 却 不 能 切 
换 到 A/B/C 中 的 任何 一 个 来 执行 ， 必 须 执行 完 D， 然 
后 返回 C， 然 后 返回 B、A， 因 为 这 4 个 线程 是 有 先后 
依赖 关系 的 ， 否 则 也 不 可 能 这 样 嵌 套 起 来 ， 如 果 强 行 
不 按照 柑 套 顺序 来 执行 将 会 导致 不 可 预知 的 错误 。 比 
如 D 还 没 运行 完 ， 结 果 内 核 强行 开始 运行 A， 此 时 称 A 
REAREA MAA, EH, Recursive) Т, Ж 
入 一 个 线程 ， 与 返回 一 个 线程 不 同 ， 还 记得 前 文中 说 
过 的 那个 被 过 早 唤 醒 的 例子 么 ? 既然 是 嵌 套 任务 ， 证 
明 多 个 线程 之 间 是 有 先后 依赖 关系 的 ， 所 以 必须 按照 
顺序 依次 返回 才 可 以 ， 否 则 外 层 线程 会 提前 拿 到 错误 
的 数据 ， 这 个 道理 又 与 CPU 流水 线 中 的 各 种 依赖 有 类 
似 的 本 质 。 

实际 上 ， 如 果 多 个 任务 之 间 有 严格 的 依赖 关 

系 ， 需 要 使 用 任务 同步 机 制 来 解决 ， 等 待 资源 的 任 
务 主 动 睡眠 ， 生 产 资源 的 任务 在 资源 准备 好 之 后 唤 
醒 等 待 资源 的 任务 。 这 样 ， 即 便 是 等 待 资源 的 任务 
被 错误 唤醒 ， 那 么 它 也 可 以 在 唤醒 之 后 先 检查 一 遍 

自己 需要 的 资源 是 否 真 的 到 来 了 ， 如 果 确 定 是 错误 

地 被 唤醒 ， 则 可 以 循环 回去 继续 休眠 。 关 于 睡眠 和 
唤醒 请 参考 10.3.2 节 。 


那么 ， 自 己 切 换 到 自己 是 否 可 以 ? 理论 上 是 可 
以 的 ， 但 是 CPU 必须 被 设计 为 : 先 把 旧 任 务 的 上 下 文 
保存 到 TSS 中 ， 然 后 再 从 “新 ”任务 〈 其 实 还 是 旧 任 
务 ) 的 TSS 中 读 出 上 下 文 装 入 寄存 器 ， 这 两 个 过 程 必 
须 串 行 ， 因 为 如 果 先 把 “新 ”任务 的 TSS 读 出 来 ， 将 
会 丢失 数据 。 而 CPU 很 有 可 能 为 了 效率 ， 在 切换 任 
务 时 ， 预 先 将 新 任务 的 TSS 读 出 来 ， 再 保存 旧 任务 的 
TSS， 仅 当 新 旧 任务 不 是 同一 个 时 ， 这 样 做 才 没 有 问 
题 。 而 x86 处 理 器 禁止 自己 切换 到 自己 ， 但 是 可 以 从 
自己 返回 (ire) 到 自己 。 

对 于 媒 套 的 任务 ， 每 次 执行 必须 执行 最 内 层 的 那 
个 任务 〈 本 例 中 一 开始 是 D) 。 可 以 看 到 ，A-B-C-D 
这 个 小 圈子 其 实 并 没有 影响 到 别人 ， 它 们 只 是 在 内 部 
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形成 了 先后 顺序 约定 而 已 ， 并 不 会 去 阻碍 其 他 线程 的 
运行 。 中 断 服务 程序 中 ， 内 核 可 以 选择 使 用 比如 Jmp 
指令 强行 跳出 嵌 套 圈子 到 其 他 独立 线程 ， 也 可 以 选择 
使 用 iret 指 令 从 当前 嵌 套 圈 的 最 内 层 线程 返回 外 层 线 
程 ， 具 体 需 要 内 核 的 任务 调度 程序 具体 安排 和 判断 。 

另外 ， 当 外 部 中 断 或 者 内 部 异常 发 生 的 时 候 ， 按 
照 前 文中 给 出 的 例子 ，CPU 跳 转 到 内 核 态 的 对 应 的 服 
务 程序 运行 ， 但 是 这 些 内 核 态 程序 依然 属于 当前 线程 
/任务 。x86 处 理 器 提供 了 一 种 机 制 ， 可 以 让 外 部 或 者 
内 部 中 断 之 后 ， 运 行 一 个 独立 线程 来 服务 该 中 断 ， 具 
体 方式 是 将 一 个 TSS 选 择 子 放 置 到 中 断 入 口 处 ， 具 体 
在 10.3 节 再 介绍 。 使 用 独立 线程 来 处 理 中 断 ， 当 服务 
于 中 断 的 线程 执行 结束 之 后 ， 必 须 被 设计 为 返回 到 中 
断 前 的 线程 。 

网 套 的 示意 图 如 图 10-56 所 示 。x86 处 理 器 提供 了 
由 硬件 自动 完成 执行 嵌 套 任务 的 执行 、 返 回 时 切换 的 
支持 。 当 最 内 层 线程 执行 完 想 要 返回 外 层 线程 时 ， 会 
执行 iret 指 令 。 如 前 文 所 述 ， 该 指令 会 做 比较 复杂 的 
判断 ， 其 中 有 一 步 前 文中 没 讲 到 ， 那 就 是 它 会 判断 当 
前 任务 〈 未 返回 前 的 任务 ) 的 EFLAGS 寄 存 器 中 的 NT 
(Nested Task) 位 是 否 为 1， 该 位 是 当 外 层 任务 调用 
内 层 任务 ， 或 者 发 生 了 中 断 而 中 断 入 口 为 一 个 独立 任 
务 时 ，CPU 自 动向 切换 后 任务 的 EFLAGS 寄 存 器 中 写 
入 的 ， 表 示 当 前 任务 嵌 套 在 外 层 任务 之 内 ， 为 返回 时 
的 iret 指 令 提供 行为 依据 。 发 生 嵌 套 时 ，CPU 也 会 将 
外 层 任 务 TSS 选 择 符 备份 一 份 到 内 层 任务 的 TSS 中 的 
Previous Task Link 字 段 中 。 


Top Level Nested MoreDeeply Currently Executing 
Task Task Nested Task Task 
TSS TSS TSS EFLAGS 
NT=1 
NT=0 NT=1 NT=1 
Previous jious Previous = 
Task Link Task Link Task Link. Task Register. 


图 10-56 “任务 嵌 套 示意 图 


当 内 层 任务 iret 返 回 时 ，iret 通 过 当前 EFLAGS 中 
的 NT 位 判断 ， 如 果 该 位 为 1， 则 表示 其 需要 返回 到 外 
层 任务 ， 则 将 当前 线程 的 上 下 文保 存 到 当前 TSS 中 ， 
然后 从 当前 任务 TSS 中 的 Previous Task Link 字 段 中 的 
选择 子 找到 读 出 外 层 任务 的 TSS 中 的 对 应 的 值 ， 装 入 
上 下 文 寄存 器 ， 同 时 将 上 一 个 任务 TSS 中 的 Previous 
Task Link 字 段 清 零 ， 因 为 此 时 该 任务 已 经 执行 结束 ， 
жәнее. 

Ех, ИЕ СИЛЕ, Нм 
刻 只 能 是 最 内 层 那个 在 执行 ， 其 他 都 必须 被 阻塞 ， 
为 了 阻止 内 核 的 任务 调度 程序 不 经 意 地 或 者 由 于 各 
种 原因 尝试 越过 内 层 线程 而 直接 切换 到 外 层 任务 执 
行 ， 当 某 个 任务 调用 了 内 层 任 务 之 后 ， 前 者 对 应 的 
TSS 段 描述 符 〈 位 于 GDT 中 的 那个 副本 ，TR 寄 存 器 
中 的 不 需要 更 新 ， 因 为 即将 被 覆盖 ) 中 的 Busy 位 会 
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被 CPU 主动 置 1， 以 表示 该 线程 正在 运行 当中 ， 请 不 要 重新 再 次 调度 它 运行 CR 
要 重 入 ) ， 如 果 内 层 任务 继续 调用 更 内 层 的 任务 ， 那 么 前 者 也 被 标记 为 Busy。 如 
图 10-57 所 示 为 一 个 肉 套 任务 运行 和 返回 、 切 换 过 程 的 示意 图 。 

值得 一 提 的 是 ，x86 处 理 器 不 仅 在 程序 中 用 Call TSS: 0 指令 时 可 以 形成 谋 套 
任务 ， 在 发 生 外 部 中 断 、 异 常 时 ， 如 果 对 应 的 中 断 入 口 放 置 的 是 一 个 TSS 选 择 子 
(使 用 门 的 方式 ， 见 10.3 一 节 ) ， 那 么 切 挽 之 后 的 任务 也 是 一 个 谋 套 任务 。 这 个 
设计 的 合理 性 在 于 ， 中 断 和 异常 处 理 完 后 继续 返回 之 前 被 中 断 的 任务 执行 ， 而 不 
是 切 出 到 其 他 之 前 没有 排 上 的 任务 ， 这 也 符合 常理 。 上 文中 说 过 内 核 程序 即便 在 
中 断 上 下 文中 也 可 以 选择 不 切换 回 中 断 前 的 任务 ， 比 如 直接 强行 使 用 Jmp 切 换 。 
但 是 如 果 使 用 iret 的 话 ， 则 CPU 会 自动 返回 到 中 断 前 的 任务 执行 。 所 以 ， 内 核 其 
实 是 可 以 灵活 决断 的 。 


CPU 对 Busy 位 的 设 定 规则 如 下 。 

(1) 不 管 是 用 什么 方式 来 切换 ， 也 不 管 目标 任务 是 否 是 嵌 套 任务 ，CPU 都 
会 自动 将 切换 到 的 目标 线程 的 TSS 描 述 符 〈 位 于 GDT 中 的 ) 中 的 Busy 位 置 1。 

(2) 当 某 个 任务 Call 了 一 个 目标 任务 ， 或 者 由 于 终端 、 异 常 导致 的 将 当前 任 
务 切 换 到 某 个 目标 任务 时 ，CPU 自 动 将 目标 任务 的 TSS 描 述 符 中 的 Busy 位 置 1， 而 
之 前 任务 的 Busy 位 维持 为 1， 以 防止 被 重 入 。 

(3) 在 某 个 嵌 套 的 最 内 层 任 务 返 回 到 上 层 任务 时 ， 内 层 任 务 的 Busy 位 置 0 
(并 将 EFLAGS 值 中 的 NT 位 置 0， 相 当 于 将 该 线程 与 其 上 游 解 除了 霸 套 关系 ) ， 
上 层 任务 的 Busy 位 依然 维持 为 1， 而 且 CPU 会 检查 ， 要 求 上 层 任务 的 Busy 位 必须 
为 1， 否 则 报 异 常 。 也 就 是 说 用 iret 指 令 来 切换 任务 (或 者 说 当 CPU 执 行 iret 指 令 
时 发 现 当 前 任务 的 EFLAGS 值 中 的 NT=1 时 则 iret 的 行为 会 变 为 切换 任务 ， 而 不 是 
如 前 文中 介绍 过 的 传统 的 单纯 弹 栈 的 行为 ) ， 新 任务 的 B 位 必须 为 1， 当 前 任务 的 
TSS 中 的 Previous Task Link 必 须 有 效 。 

(4) 不 管 是 用 什么 方式 切换 ，CPU 检 查 欲 切换 到 的 目标 任务 的 TSS 描 述 符 中 
的 Busy 位 ， 如 果 为 1， 则 报 异常 。 

(5) 如 果 线 程 中 执行 了 Jmp 代 码 ， 或 者 CPU 收 到 外 部 中 断 或 者 异常 导致 的 线 
程 切换 ，CPU 在 切换 到 新 任务 之 前 会 自动 清除 切换 前 任务 的 Busy 位 为 0。 

下 面 我 们 总 结 一 下 CPU 在 执行 任务 切换 时 的 通用 步骤 。《〔 任 务 切 换 的 变更 规则 
如 图 10-58 所 示 ) 

(1) 拿 到 目标 任务 的 TSS 段 选择 子 。 从 JMP/Call 指 令 给 出 的 参数 中 〈 当 程序 主 
动 使 用 Jmp/Call 指 令 切换 任务 时 ) ， 或 者 从 中 断 入 口 处 〈 当 发 生 外 部 或 者 内 部 主动 mnt 
中 断 ， 且 中 断 入 口 处 是 一 个 TSS 选 择 子 时 ) ， 或 者 从 嵌 套 任务 的 最 内 层 任务 的 TSS 中 
的 Previous Task Link 字 段 中 〈 当 榜 套 任务 链 的 最 内 层 任务 处 理 完毕 执行 ret 指 令 时 )， 
拿 到 目标 任务 的 TSS 选 择 子 ， 请 注意 ， 此 时 CPU 并 不 知道 拿 到 的 选择 子 到 底 是 CS 还 
是 DS、TSS 等 ， 因 为 选择 子 类 型 很 多 。 而 Jmp CS、 卫 语法 是 通用 的 ，CPU 后 续 会 判 
断 该 选择 子 的 类 型 。 

(2) 读 出 描述 符 并 进行 合 规 性 检查 。CPU 用 目标 选择 子 去 拿 到 目标 描述 符 ， 
判断 描述 符 中 的 P〈Present) 位 是 否 为 1 以 判断 其 是 否 有 效 〈 是 否 是 之 前 不 用 的 删 掉 
了 ， 如 果 是 ，P=0) ， 以 及 检查 段 长 的 合法 性 。 然 后 ，CPU 根 据 当 前 任务 的 CS 寄存 
器 中 的 CPL 字 段 ， 以 及 Jmp/Call 指 令 中 给 出 的 目标 选择 子 的 RPL 字 段 ， 以 及 用 该 选择 
子 读 取 到 的 描述 符 中 的 DPL， 按 照 ，DPL 宇 max{CPL, RPL} 的 规则 做 权限 检查 。 到 这 
一 步 ，CPU 依 然 不 知道 该 描述 符 是 个 什么 描述 符 。 如 果 是 通过 外 部 中 断 〈 不 包括 Int/ 
Sysenter/Syscall 指 令 这 种 内 部 中 断 ) 和 异常 导致 的 任务 切换 ， 则 CPU 并 不 检查 权限 。 

G) 检查 描述 符 的 类 型 。 然 后 ，CPU 检 查 该 描述 符 的 类 型 ， 比 如 是 否 为 类 
(系统 类 ， 比 如 TSS 等 ) ， 如 果 是 ， 则 采用 如 图 10-54 右 侧 所 示 的 类 型 编码 来 继续 判 
断 。 本 例 中 描述 符 为 TSS 描 述 符 ，CPU 便 知道 了 要 进行 任务 切换 。 


В 诬 套 中 的 外 层 线程 ， 只 能 从 内 层 线程 返回 才能 运行 ， 不 能 直接 切换 
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图 10-57 ”任务 嵌 套 运行 和 返回 过 程 示意 图 


切换 到 紫色 线程 


蓝 色 线 程 Call 了 粉色 线程 


T н 
口 О 


栖 色 线程 正在 运行 
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Flag or Field 


Effect of JMP instruction 


Busy (B) flag of new task. 
Busy flag of old task. 


NT flag of new task. 
n" 
NT flag of old task. 


Previous task link field of new 
task. 


Previous task link field of old 
task. 


TS flag in control register CRO. 


Flag is set. Must have been 
Clear before. 


Flag is cleared. 

Set to value from TSS of new 
task. 

No change. 

No change. 


No change. 


Flag is set. 


Effect of CALL Instruction or Effect of IRET 
Interrupt Instruction 

Flag is set. Must have been No change. Must have been set. 

Clear before. 

No change. Flag is currently Flag is cleared. 

set. 

Flag is set. Set to value from TSS of new 

task. 

No change. Flag is cleared. 

Loaded with selector No change. 

for old task's TSS. 

No change. No change. 

Flag is set. Flag is set. 
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图 10-58 ”任务 切换 过 程 中 各 种 状态 位 的 变更 规则 


(4) 检查 目标 任务 的 Busy 位 。 如 果 目 标 描述 符 
中 的 Busy 位 =1， 则 报 异常 ， 和 否则 继续 。 因 为 B=1 表 
ВН: 要 么 该 线程 位 于 某 个 嵌 套 任务 链 中 ， 并 且 该 任务 
链 的 最 内 层 任务 并 没有 执行 完 且 返 回 ， 所 以 不 能 重 
Ах: 要 么 该 线程 就 是 试图 自己 切 到 自己 ,不 允许 COL 
上 文 解释 ) 。 

(5) 更 新 原 任务 的 Busy 位 。 如 果 当 前 采用 的 是 
Jmp 或 者 iret 指 令 来 切换 任务 ， 那 么 CPU 将 原 任 务 的 
GDT 中 的 TSS 描 述 符 中 的 Busy 位 置 为 0， 也 就 是 说 不 
管 原 任务 是 否 为 嵌 套 的 《CPU 在 这 一 步 不 关心 ) ， 其 
被 暂停 运行 。 而 如 果 当 前 执行 的 指令 为 Call 指 令 ， 导 
致 任务 切换 ， 那 么 CPU 不 更 新 原 任务 的 Busy 位 ， 也 就 
是 维持 其 为 1， 因 为 Cal 会 产生 人 嵌 套 ， 而 为 了 让 顽 套 外 
层 任 务 不 被 重 入 ，Busy 位 应 该 保留 为 1。 

(6) 更 新 原 任务 的 NT 位 。 如 果 当 前 执行 的 是 iret 
指令 导致 任务 切换 ， 则 CPU 将 当前 任务 的 EFLAGS 寄 存 
器 中 的 NT 位 改 为 0， 这 个 过 程 必须 是 另存 为 一 个 副本 
到 内 部 私有 的 缓冲 区 中 备用 ， 而 不 能 在 当前 EFLAGS 寄 
存 器 中 就 地 改 ， 因 为 ELFAGS 寄 存 器 中 的 值 会 影响 当前 
电路 的 状态 。 如 果 当 前 执行 的 是 Jmp/Call 指 令 ， 那 么 当 
前 任务 的 EFLAGS 寄 存 器 中 的 NT 位 保持 不 变 。 

(7) 更 新 目标 任务 的 Previous Task Link。 如 果 当 
前 是 Call 指 令 导致 的 切换 ， 那 么 CPU 会 自动 将 上 一 个 
任务 的 选择 子 复制 一 份 到 新 任务 的 TSS 表 中 的 Previous 
Task Link 字 段 保存 ， 以 便 将 来 新 任务 iret 时 能 够 切 回 外 
EAE ES. 

(8) 保存 当前 任务 的 TSS。CPU 将 当前 任务 的 全 部 
上 下 文 寄存 器 存储 到 当前 TR 寄存 器 指向 的 TSS 表 中 。 

(9) 更 新 新 任务 的 NT 位 。 如 果 当 前 的 任务 切换 
时 由 于 Call 指 令 、 中 断 / 异 常 导致 的 任务 切换 ， 那 么 
CPU 自动 将 新 任务 的 位 于 内 存 中 尚未 装 入 CPU 的 TSS 
中 的 EFLAGS 值 中 的 NT 位 置 为 1， 因 为 该 任务 是 一 个 
WEG. 

(10) 更 新 新 任务 的 Busy 位 。CPU 更 新 新 任务 的 
位 于 GDT 中 的 TSS 描 述 符 中 的 Busy 位 为 1。 如 果 当 前 


是 由 于 iret 指 令 导 致 的 切换 ， 则 CPU 不 主动 设置 Busy 
位 ， 因 为 该 位 一 定 原来 就 已 经 是 1 了 。 

(11) 新 任务 TSS 选 择 子 装 入 。CPU 将 新 任务 的 
选择 子 装 入 TR 寄存 器 ， 这 一 步 触发 CPU 电 路 从 GDT 中 
拿 到 TSS 描 述 符 ， 并 将 描述 符 也 装 入 TR 寄存 器 的 不 可 
见 部 分 。 

(12) 新 任务 上 下 文 装 入 。CPU 根 据 TR 中 的 描 
述 符 中 给 出 的 TSS 基 地 址 ， 找 到 新 任务 的 TSS， 并 从 
中 将 新 任务 的 上 下 文 寄存 器 一 股 脑 儿 装 入 CPU。 这 一 
步 其实 不 简单 ， 而 且 需 要 耗费 不 少时 间 。 比 如 ， 装 入 
各 种 段 寄 存 器 之 后 ， 电 路 会 在 后 台 根 据 对 应 指针 去 寻 
址 对 应 的 描述 符 然后 装 入 。 再 比如 ， 装 入 CR3 寄 存 器 
后 ， 后 台 会 将 原 有 的 TLB 缓 存 清 空 。 

(13) 运行 新 任务 。CPU 按 照 新 的 上 下 文 和 EIP 
入 口 指针 ， 开 始 运行 新 任务 。 


10.2.1.5 小 结 


任务 管理 方面 ， 概 念 、 过 程 复杂 ， 寄 存 器 众多 ， 
到 处 是 指针 ， 而 且 层 层 嵌 套 ， 可 谓 是 纷乱 复杂 。 所 以 
到 这 里 稍微 梳理 一 下 目前 为 止 的 关键 知识 点 的 逻辑 
组 织 。 

(1) 一 个 线程 /任务 是 一 个 执行 流 ， 执 行 流 分 为 
用 户 态 部 分 和 内 核 态 部 分 ， 用 户 态 部 分 执行 时 使 用 用 
户 栈 ， 内 核 态 执行 时 使 用 内 核 栈 。 线 程 的 内 核 栈 指针 
被 保存 在 当前 线程 对 应 的 TSS 中 的 ESP0 字 段 。 

(2) 用 户 态 代码 如 果 使 用 int/sysenter/syscall 指 令 
进行 主动 的 系统 调用 (系统 调用 也 算 一 种 中 断 ， 程 序 
主动 发 起 的 中 断 ， 或 者 说 软 中 断 ) 则 会 进入 内 核 态 执 
行 ， 但 是 此 时 仍然 执行 的 是 该 线程 ， 仍 然 处 于 线程 上 
下 文 。 系 统 调用 执行 时 CPU 自主 将 当前 线程 的 用 户 态 栈 
指针 (SS. ESP) 、 代 码 段 和 PP 指针 (CS. EIP) 以 及 
EFLAGS 寄 存 器 压 入 当前 线程 的 内 核 栈 (CPU 通过 当前 
TSS 中 的 ESP0 字 段 找到 内 核 栈 的 栈 顶 地 址 ) 保存 ， 然 
后 开始 执行 系统 调用 服务 程序 ， 执 行 时 接着 使 用 当前 
线程 的 内 核 栈 来 放 参 数 、 函 数 调用 返回 地 址 之 类 。 


大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


(3) 如 果 发 生 外 部 中 断 〈 比 如 设备 IO 结束 、 时 
钟 中 断 等 ) 或 者 内 部 异常 中 断 ， 且 如 果 是 在 线程 的 用 
户 态 时 发 生 的 〈CPU 根 据 当 前 CS 寄存 器 中 的 CPL 值 与 
中 断 向 量 入 口 处 选择 子 选 出 的 描述 符 的 DPL 值 的 比 对 
来 判断 目标 中 断 服 务 程序 运行 在 哪个 权 级 ，CPU 要 求 
必须 是 平 级 或 者 更 高 级 ， 通 常 所 有 的 中 断 服 务 程序 对 
应 的 CS 段 描述 符 的 DPL=0) ， 由 于 中 断 上 下 文 必 须 运 
行 在 平 级 或 者 更 高 权限 级 别 下 ， 如 果 是 运行 在 更 高 级 
下 ， 则 必须 切换 到 当前 线程 的 内 核 栈 〈 准 确 地 说 是 切 
换 到 目标 DPL 对 应 级 别 的 栈 ，ESP0/1/2 栈 ， 但 是 目前 
几乎 所 有 OS 都 只 用 R3 和 R0， 所 以 直接 将 RO 称 为 内 核 
R) 然后 将 用 户 态 的 上 述 5 个 寄存 器 值 压 入 内 核 栈 ， 
所 以 CPU 根据 当前 TSS 中 的 ESP0 字 段 找到 内 核 栈 ， 然 
后 压 入 5 个 寄存 器 ， 然 后 转 去 执行 中 断 服 务 程序 〈 中 
断 服务 程序 的 CS 的 CPL=0) 。 如 果 是 在 某 线程 的 内 核 
态 运行 时 发 生 了 外 部 或 者 异常 中 断 ， 则 CPU 发 现 中 断 
向 量 入 口 处 的 选择 子 对 应 的 描述 符 的 DPL=0， 而 当前 
CPL=0， 所 以 不 发 生 栈 切 换 ， 依 然 使 用 当前 栈 ， 所 以 
只 压 入 中 断 前 的 CS、EIP 和 EFLAGS 寄 存 器 。 

(4) 从 中 断 返回 时 ， 不 管 是 由 于 外 部 中 断 还 
是 内 部 主动 中 断 亦 或 是 异常 导致 的 中 断 返回 时 ， 统 
一 执行 iret 指 令 。 该 指令 会 从 当前 的 栈 (一 定 是 内 核 
ËR) 中 弹出 东西 。 如 果 之 前 是 从 用 户 态 被 中 断 的 ， 
则 之 前 压 栈 时 的 顺序 是 SS、ESP、EFLAGS、CS、 
EIP; 如 果 之 前 是 从 内 核 态 被 中 断 的 ， 则 之 前 压 栈 时 
的 顺序 是 EFLAGS、CS、EIP。 当 然 ， 某 个 线程 运行 
在 内 核 态 ， 表 明 当 前 的 内 核 栈 里 一 定 早 就 压 有 该 线 
程 用 户 态 的 SS/ESP/EFLAGS/CS/EIP 这 5 个 寄存 器 ， 
但 是 这 一 步 是 要 在 内 核 态 代码 运行 完 时 同样 用 iret 
指令 来 返回 到 用 户 态 的 。 这 里 说 的 是 在 内 核 态 运行 
时 ， 被 外 部 中 断 ， 那 么 中 断 完成 后 一 定 要 先 返回 到 
内 核 态 ， 再 返回 到 用 户 态 。 再 说 回来 ，iret 从 栈 中 弹 
出 EIP， 然 后 弹出 CS， 这 一 步 很 关键 ， 此 时 CPU 会 将 
该 CS 中 的 RPL 中 断 与 当前 的 CS 中 的 CPL 的 权限 做 比 
较 ， 如 果 发 现 弹出 的 CS 的 权限 与 当前 的 CPL 平 级 ， 
则 证 明 iret 返 回 的 是 内 核 态 ， 则 下 一 步 CPU 只 会 弹出 
EFLAGS 寄 存 器 ， 然 后 就 继续 以 弹出 的 EIP 开 始 继续 
运行 代码 ， 执 行 的 便 是 被 中 断 线程 的 内 核 态 代码 ; 
如 果 发 现 弹 出 的 CS 的 权限 低 于 当前 的 CPL， 证 明 是 
往 用 户 态 程序 返回 ， 则 CPU 会 继续 弹出 两 个 东西 ， 
也 就 是 ESP 和 SS， 此 时 ， 栈 便 从 内 核 栈 切 到 了 用 户 
栈 ， 然 后 CPU 从 EIP 继 续 执行 代码 ， 执 行 的 便 是 被 中 
断 之 前 的 线程 的 用 户 态 代码 。 

(5) 当 CPU 位 于 内 核 态 执行 时 ， 内 核 态 代码 只 
要 受到 了 既定 条 件 的 触发 ， 任 何 时 候 都 可 能 发 生 任务 
切换 ， 可 以 使 用 Jmp/Call 指 令 来 实现 任务 切换 ，Jmp 
TSS 选 择 子 : 0 语句 不 会 导致 任务 幅 套 ， 而 Call TSS: 0 
语句 会 导致 租 套 。 当 中 断 /异常 向 量 入 口 为 一 个 TSS 选 
择 子 的 时 候 ， 也 就 是 利用 一 个 独立 线程 来 处 理 中 断 的 
时 候 ， 也 会 发 生 任务 切换 。 外 部 中 断 〈 非 int/sysenter/ 


syscall 指 令 引 发 ) 、 异 常 、Call 指 令 引 发 的 任务 切 
换 ， 新 任务 会 与 上 一 个 任务 形成 嵌 套 。 

(6) Call/Jmp TSS 选 择 子 : ОМ, 或 者 Call/Jmp 
任务 门 选择 子 : 0 时 。 关 于 门 的 机 制 详 见 10.3 节 。 

(7) 外 部 中 断 或 者 内 部 异常 导致 的 中 断 执行 结 
束 时 的 iret 指 令 也 可 能 导致 任务 切换 。 如 果 某 个 任务 
链 最 内 层 任务 执行 了 系统 调用 ， 或 者 发 生 了 常规 中 断 
(中 断 服务 程序 并 非 独立 线程 ， 而 是 函数 ) ， 当 系统 
调用 或 者 中 断 服务 结束 使 用 iret 指 令 来 返回 时 ， 此 时 
的 EFLAGS 寄 存 器 中 的 NT 不 可 能 为 1， 因 为 执行 系统 
调用 或 者 中 断 之 后 ， 并 没有 切换 到 新 的 独立 线程 ， 所 
以 CPU 不 会 把 当时 的 EFLAGS 寄 存 器 中 的 NT 位 置 1。 
而 上 只 有 当 线 程 运 行 时 发 生 了 中 断 ， 而 且 中 断 入 口 是 独 
立 线程 时 ， 当 时 的 EFLAGS 中 的 NT 才 会 被 置 !，iret 返 
回 时 自然 就 需要 返回 到 中 断 发 生前 的 那个 线程 。 

(8) Int/sysenter/syscall 指 令 、iret 指 令 在 执行 时 
都 牵扯 到 线程 的 栈 的 切换 。iret 甚 至 还 可 能 触发 任务 
的 切换 〈 切 换 到 顽 套 任务 链 的 向 外 一 层 任务 ) 。 总 体 
来 讲 ， 凡 是 前 后 权 级 有 变化 的 ， 都 要 伴随 着 栈 的 切换 
和 压 栈 / 弹 栈 操作 。 

上 面 介绍 了 x86 提 供 的 原生 任务 切换 机 制 ， 然 
而 ， 实 际 的 操作 系统 内 核 可 以 完全 按照 Intel 的 推荐 来 
实现 任务 管理 和 切换 ， 但 是 也 可 以 使 用 一 些 变通 的 方 
式 ， 绕 过 Intel 的 原 有 设计 ， 实 现 更 高 效 的 任务 切换 和 
管理 。 下 面 就 简要 介绍 一 下 Linux 操 作 系统 在 任务 管 
理 方面 的 基本 机 制 。 


10.2.2 32 位 Linux 的 任务 创建 与 管理 


本 节 简 要 介绍 一 下 Linux 对 任务 的 管理 机 制 。 在 
Linux 内 核 2.4 版 本 之 前 ， 采 用 了 Intel 推 荐 的 方式 ， 也 
就 是 为 每 个 线程 设置 一 个 TSS 结 构 ， 每 次 切换 线程 时 
完全 按照 10.2.1 节 中 的 规则 和 方式 来 做 。 但 是 在 2.4 及 后 
续 版 本 中 ， 其 采用 了 另 一 套 机 制 ， 下 文 再 介绍 。 

不 同 的 操作 系统 对 进程 、 线 程 、 任 务 的 定义 可 能 
各 不 相同 。 比 如 有 些 操作 系统 将 执行 流 统称 为 进程 ， 
将 共享 同一 个 地 址 空间 的 多 个 执行 流 称 为 轻 量 级 进 
程 (Light Weight Process，LWP) ， 而 没有 线程 的 概 
念 。Windows 操 作 系统 习惯 划分 进程 (Process) AAR 
Ê (Thread) ， 而 Linux 操 作 系统 一 开始 并 没有 显 式 地 
区 分 进程 和 线程 这 两 个 概念 ， 而 是 将 所 有 的 执行 流 都 
称 为 任务 CTask) 。 如 果 某 几 个 Task 的 CR3 寄 存 器 值 
都 相同 ， 也 就 是 共享 同一 份 页 表 ， 那 么 这 几 个 Task 就 
相当 于 在 同一 个 进程 当中 ， 和 否则 就 可 以 认为 是 多 个 独 
立 的 进程 ， 各 自 有 独立 的 虚拟 地 址 空间 。 但 是 随 着 不 
断 地 发 展 ，Linux 也 逐渐 使 用 了 Process 和 Thread 这 两 个 
词 了 ， 逐 渐 区 分 了 开 来 。 

如 前 文 所 述 ， 操 作 系统 对 整个 计算 机 的 管理 ， 离 
不 开 各 种 元 数据 表格 〈 结 构 体 、 链 表 、 位 map 等 ) ， 
表格 可 以 相互 嵌 套 ， 相 互 指向 、 链 接 ， 表 格 中 可 以 纳 


入 各 种 其 他 类 型 的 数据 结构 比如 数组 等 。 操 作 系统 
将 所 有 的 信息 放 在 表格 中 维护 ， 在 执行 各 种 动作 时 ， 
根据 表格 中 的 信息 做 出 计算 、 判 断 ， 当 信息 发 生变 化 
时 ， 再 将 新 的 信息 写 入 表格 以 供 后 续 判 断 。 这 些 表格 
被 初始 化 在 内 存 中 存放 。 前 文中 介绍 内 存 管理 时 ， 就 
介绍 过 很 多 的 相关 数据 结构 。 对 于 任务 管理 模块 ， 也 
需要 很 多 表格 来 存放 任务 管理 相关 的 信息 。 我 们 的 探 
索 之 路 就 从 这 堆 表格 开始 。 


10.2.2.1 PCB/task struct() 


学 术 界 将 操作 系统 用 于 存放 任务 管理 相关 信息 的 
数据 结构 泛称 为 PCB (Process Control Block， 进 程控 
制 块 ) 。 如 图 10-59 所 示 为 PCB 中 应 当 包含 的 信息 。 
了 PCB 并 不 是 一 种 标准 ， 实 际 的 操作 系统 可 以 使 用 任何 
方式 、 任 何 数据 结构 来 实现 PCB， 可 以 砍 掉 一 些 信 
息 ， 也 可 以 增加 一 些 信息 ， 图 中 也 给 出 了 各 自 不 同 的 
包含 信息 。 不 过 基本 上 图 中 列 出 的 信息 对 于 实际 操作 
系统 来 讲 是 远 远 不 够 的 。 

进程 ID: 用 于 区 分 不 同 的 进程 。 

进程 状态 ， 描述 该 任务 当前 所 处 的 状态 ， 比 如 正 
在 运行 、 被 切 出 等 待 下 次 运行 、 等 待 某 个 事件 而 被 阻 
塞 等 。 不 同 操作 系统 定义 的 状态 类 别 和 数量 可 能 各 不 
相同 。 

进程 的 指令 指针 : 该 进程 运行 时 将 从 该 指针 处 继 
续 运行 ， 也 就 是 该 进程 的 断 点 的 EIP 寄 存 器 值 。 


Process Id 
Process state 
Program counter 
Register information 

Scheduling information 
Memory related information 

Accounting information 
Status information related to 

yo 
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上 下 文 寄存 器 值 : 比如 各 种 通用 寄存 器 、 栈 指针 寄 
存 器 、EFLAGS 寄 存 器 等 。 不 同 操作 系统 对 任务 管理 、 
切换 方面 的 机 制 不 同 ， 可 能 会 保存 不 同 的 寄存 器 。 

任务 调度 信息 : 包括 该 任务 的 优先 级 、 调 度 策略 
等 信息 。 

内 存 布局 信息 : 该 任务 被 分 配 的 内 存 情况 都 记录 
在 这 个 入 口 所 指向 的 次 级 数据 结构 中 。 

运行 统计 信息 : 该 任务 执行 过 程 中 对 各 种 资源 的 
耗费 统计 信息 ， 比 如 运行 的 时 间 ， 等 等 。 

1/O 资 源 信息 : 该 任务 对 LO 设备 的 使 用 状况 ， 比 
如 已 经 打开 的 文件 等 。 

Linux 操 作 系 统 把 每 个 任务 的 所 有 相关 信息 存放 
在 struct task_struct{ } 这 个 结构 体 中 ， 所 以 Linux 下 的 
PCB 就 是 task_struct{ } 结 构 体 ， 其 又 被 泛称 为 Linux 
Process Descriptor。 如 图 10-60 所 示 ， 该 结构 体 中 又 囊 
括 多 个 次 级 数据 结构 ， 用 来 记录 上 述 这 些 信息 ， 比 如 
用 于 记录 内 存 布 局 的 信息 就 被 保存 在 mm_struct{ } 次 
级 结构 体 中 ， 而 mm _struct 中 又 包含 更 多 、 更 深层 次 的 
结构 ， 比 如 vm_area_struct 结 构 体 等 。 

图 10-60 中 左 侧 只 列 出 了 一 些 关键 指针 ， 图 中 右 
侧 所 示 为 该 结构 体 的 全 貌 ( 在 较 新 版 本 的 Linux 中 该 
结构 体 非常 庞大 ， 篇 幅 所 限 ， 不 贴 出 ) 。 图 10-61 左 
侧 所 示 为 mm_struct 结 构 体 中 对 应 指针 的 指向 关系 ， 
可 以 看 到 当前 任务 的 CR3 寄 存 器 值 就 被 保存 在 其 中 
的 pgd 字 段 ， 此 外 还 存 有 用 于 记录 当前 任务 所 占用 虚 
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10.2.2.2 ”Linux 的 任务 软 切换 机 制 


在 2.4 内 核 版 本 之 前 ，Linux 的 确 是 按照 Intel 推 荐 
的 切换 方案 来 实现 的 ， 但 是 后 来 使 用 了 更 加 高 效 快 
速 的 方式 。Linux 将 所 有 的 线程 上 下 文 寄存 器 都 保存 
在 task_struct 结 构 体 中 某 处 ， 比 如 CR3 值 保存 在 mm _ 
struct 中 的 pdg 字 段 中 ，ESP0 内 核 栈 地 址 保存 在 task_ 
struct->thread_struct->sp0 字 段 中 ， 每 个 任务 的 断 点 EIP 
则 被 保存 在 各 自 的 task_struct->thread_struct->ip 中 。 不 
同 版 本 的 Linux 的 这 些 数据 结构 和 组 织 也 各 有 不 同 。 
这 里 只 介绍 通用 流程 ， 细 节 请 大 家 自行 了 解 。 

我 们 先 来 思考 一 下 ， 切 换 到 目标 任务 ， 最 直接 的 
方式 是 什么 ? 那 就 是 直接 跳 转 到 目标 线程 的 断 点 EIP 
继续 执行 。 但 是 跳 转 过 去 之 前 一 定 要 先 得 把 当前 线程 
的 断 点 EIP 保 存 下 来 ， 由 于 目标 线程 的 内 核 栈 和 用 户 
栈 与 当前 线程 不 同 ， 所 以 还 需要 先 把 当前 线程 的 ESP0 
指针 保存 下 来 ， 并 将 目标 线程 的 ESP0 载 入 ESP 寄 存 
器 ， 内 核 栈 中 保存 有 线程 的 用 户 栈 指针 、 用 户 态 EIP 
等 用 户 态 的 上 下 文 ， 以 及 内 核 态 部 分 的 上 下 文 ， 所 以 
ESP0 很 重要 。 当 然 ， 目 标 线程 的 CR3 寄 存 器 也 要 载 
入 以 切换 虚拟 地 址 空间 。 至 于 各 种 段 寄存 器 、LDTR 
寄存 器 等 ， 由 于 Linux 采 用 Flat 分 段 模式 ， 不 管 哪个 线 
程 ， 用 户 态 还 是 内 核 态 ， 段 寄存 器 都 是 一 样 的 ， 所 以 
不 需要 切换 。 至 于 通用 寄存 器 ， 内 核 程序 在 切换 任务 
之 前 ， 可 以 确保 不 在 通用 寄存 器 中 留 有 任何 中 间 结 
果 ， 然 后 再 切换 ， 所 以 也 不 需要 保存 和 恢复 。 这 里 读 
者 可 能 有 个 疑惑 ， 比 如 当 用 户 态 程序 运行 时 ， 通 用 寄 
存 器 中 留 有 中 间 值 ， 突 然 外 部 中 断 到 来 ， 这 些 中 间 值 
难道 不 需要 保存 么 ? 当然 需要 保存 ， 由 中 断 服务 程序 
来 负责 保存 ， 保 存 到 内 核 栈 里 ， 丢 不 了 ， 所 以 ， 只 要 
保存 了 内 核 栈 ESP0 指 针 ， 就 相当 于 保存 了 这 些 通用 
寄存 器 。 而 内 核 程 序 运行 时 也 需要 用 到 通用 寄存 器 ， 
但 是 由 于 内 核 切换 线程 是 受 控 主动 的 行为 ， 所 以 其 可 
以 保证 在 通用 寄存 器 中 没有 有 用 的 值 之 后 ， 再 发 起 
切换 。 

如 图 10-63 所 示 ， 某 用 户 线程 调用 了 read0，read0 执 
行 时 发 生 了 系统 调用 ， 导 致 线程 进入 了 内 核 态 运行 。 内 
核 态 在 发 起 硬盘 IO 之 后 ， 决 定 切换 到 其 他 任务 运行 ， 
于 是 内 核 程序 调用 context_switch0) 函 数 ， 该 函数 内 部 
也 调用 了 其 他 一 些 函数 ， 简 化 起 见 ， 下 面 不 列 出 具体 
函数 ， 只 给 出 步骤 描述 。 

(1) 切 CR3。 内 核 将 要 切换 到 的 目标 线程 的 CR3 
寄存 器 值 从 目标 mm_struct 中 读 出 (从 task_struct 结 构 
体 中 找到 mm_struct 的 指针 ， 然 后 再 从 后 者 中 找 出 pdg 
字段 ， 也 就 是 CR3 值 ) ， 然 后 装 入 CPU 的 CR3 寄 存 
器 ， 以 切换 到 目标 线程 的 虚拟 地 址 空间 。 这 里 有 个 疑 
间 ， 内 核 在 这 么 早 就 先 把 地 址 空间 切换 了 ， 那 么 后 续 
的 任何 访 存 请 求 都 会 被 翻译 成 目标 线程 的 物理 地 址 ， 
这 不 就 出 问题 了 么 ? 不 会 的 ， 因 为 此 时 已 经 处 于 内 核 
态 运行 ， 只 会 访问 内 核 地 址 空间 区 域 ， 而 所 有 线程 虚 


拟 地 址 空间 中 的 内 核 区 域 都 指向 同样 的 物理 页 面 ， 所 
以 不 管 切 到 哪个 线程 ， 内 核 态 程序 都 会 访问 到 相同 内 
容 ， 不 会 有 问题 。 当 然 ， 这 一 步 理 论 上 也 可 以 放 到 后 
面 再 执行 。 

(2) 压 栈 BFLAGS。 内 核 将 旧 任务 的 EFLAGS 寄 
存 器 值 压 入 当前 线程 的 内 核 栈 中 保存 。 

(3) 压 栈 EBP 寄存 器 。 内 核 将 旧 任务 的 EBP 寄存 
器 值 压 入 当前 线程 的 内 核 栈 中 保存 。 

(4) 保存 旧 任务 ESP。 内 核 将 旧 任务 ， 也 就 是 
当前 任务 的 ESP 寄 存 器 值 保 存 到 旧 任 务 的 task_struct -> 
thread struct -> sp 字段 中 保存 。 为 何不 先 保存 ESP 呢 ? 因 
为 第 2 步 中 压 入 的 两 个 值 会 导致 ESP 跟 着 变化 ， 所 以 得 等 
它 俩 压 入 之 后 ， 再 保存 ESP 值 。 在 此 之 后 ， 旧 任务 的 内 
核 栈 中 不 会 再 被 压 入 其 他 值 ， 所 以 此 时 才 保 存 ESP。 

(5) 装 入 目标 任务 的 ESP。 内 核 将 目标 任务 的 、 
当时 被 保存 的 ESP， 从 目标 tast_struct -> thread. struct 
-> sp 读 出 然后 装 入 CPU 的 ESP 寄 存 器 。 这 一 步 结束 之 
后 ， 当 前 的 内 核 栈 已 经 是 目标 任务 的 了 ， 任 何 压 栈 、 
弹 栈 操作 ， 压 入 和 弹出 的 都 是 目标 任务 的 内 核 栈 ， 而 
不 再 是 旧 任务 的 了 。 

(6) 保存 旧 任务 的 断 点 EIP。 内 核 将 旧 任务 的 断 
点 EIP 值 保存 到 旧 任务 的 tast_struct -> thread. struct -> ip 
字段 中 。 值 得 一 提 的 是 ， 必 须 搞 清 楚 旧 任务 的 断 点 在 
哪儿 。 断 点 并 不 一 定 就 必须 是 “上 次 被 打 断 的 点 ”， 
而 可 以 是 任何 值 。context_switch 函 数 到 底 属于 哪个 线 
程 ? 实际 上 ， 它 不 属于 任何 一 个 任务 ， 它 游离 在 旧 任 
务 和 新 任务 之 间 ， 属 于 真空 地 带 。 那 么 ， 旧 任务 的 断 
点 在 哪里 ， 按 理 说 应 该 是 context_switch 函 数 的 外 部 ， 
当然 也 可 以 是 内 部 ， 取 决 于 代码 如 何 组 织 。 图 中 ， 第 
一 句 蓝 色 代码 〈 从 内 核 栈 中 弹出 EBP) 就 是 旧 任 务 的 
断 点 。 旧 任务 当时 运行 的 时 候 ， 最 后 做 的 动作 是 压 栈 
EFLAGS 和 EBP 寄 存 器 ， 也 就 是 第 2 步 ， 然 后 它 就 被 阻 
塞 了 ， 进 入 了 真空 地 带 运行 。 当 旧 任务 被 重新 安放 到 
CPU 上 运行 之 前 ， 必 须 准备 好 对 应 的 栈 指针 、CR3 指 
针 等 ， 而 这 个 则 是 由 新 的 “ 旧 任 务 ” 所 调用 的 相同 的 
context_switch 函 数 中 相同 的 上 述 步骤 来 完成 的 ， 它 
醒 来 第 一 个 要 做 的 当然 就 是 弹出 这 两 个 寄存 器 ， 然 后 
执行 ret 指 令 ，ret 会 导致 什么 ? 第 5 章 介 绍 过 ，ret 指 令 
相当 于 pop EIP， 然 后 继续 从 弹出 的 EIP 指 针 地 址 继续 
运行 。 所 以 ， 在 切换 到 新 任务 之 前 ， 必 须 将 新 任务 的 
断 点 EIP 取 出 并 压 入 新 任务 内 核 栈 ， 也 就 是 下 一 步 。 

(7) 压 入 新 任务 断 点 EIP 到 新 内 核 栈 。 内 核 从 目 
标 任务 的 tast_struct -> thread struct -> ір НИЕ АН 
断 点 EIP 然 后 压 入 当前 的 〈 也 就 是 目标 任务 的 ) 内 核 
栈 中 ， 后 续 的 位 于 _switch_to 函 数 中 最 后 一 句 ret 指 令 
会 弹出 保存 的 EIP， 真 正 开始 运行 新 任务 。 

(8) 跳 转 到 _switch_to 函 数 运行 。 注 意 ， 是 跳 
转 ， 而 不 是 调用 。 调 用 函数 会 用 到 call 指 令 ， 会 导致 
CPU 自动 将 当前 EIP 压 栈 ， 这 会 破坏 之 前 做 好 的 铺 
垫 。 而 跳 转 则 是 使 用 Jmp 指 令 强 行 跳 过 去 执行 ， 栈 不 
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会 有 变化 。 

(9) 将 目标 任务 的 ESP0 寄 存 器 值 保存 到 TSS 。 
可 以 发 现 ， 一 直到 这 一 步 ， 之 前 根本 没 TSS 什 么 事 
情 ，Linux 会 用 唯一 的 一 份 TSS 来 应 付 x86 处 理 器 的 要 
求 。 当 发 生 各 类 中 断 〈 外 部 硬 中 断 、 软 中 断 、 异 常 
等 ) 时 ，CPU 会 自动 将 TSS 中 的 ESP0 装 入 ESP 并 保存 
用 户 态 的 SS、ESP、EFLAGS、CS、EIP 这 5 个 寄存 器 
到 内 核 栈 。Linux 无 法 绕 过 这 个 步骤 ， 所 以 ， 切 换 任 
务 之 后 ， 必 须 将 新 任务 的 tast_struct -> thread struct -> 
sp0 写 入 TSS 表 ， 这 样 CPU 在 中 断 时 才能 将 上 述 5 个 寄 
存 器 压 入 正确 的 内 核 栈 。 所 以 ，Linux 只 需要 不 断 地 
变化 TSS 中 的 ESP0 字 段 ， 就 可 以 一 方面 骗 过 CPU， 另 
一 方面 实现 任务 切换 。 内 核 甚至 连 TSS 中 的 CR3 寄 存 
器 值 都 不 需要 变化 ， 因 为 内 核 是 使 用 独立 指令 去 亲手 
更 新 CR3 寄 存 器 的 ， 而 不 是 靠 前 文中 所 述 的 Jmp/Call 
目标 TSS: 0 让 CPU 读 取 TSS 表 然后 载 入 各 个 寄存 器 。 
注意 ， 这 一 步 保 存 到 TSS 中 的 并 不 是 当前 CPU 内 部 
ESP 寄 存 器 的 值 ， 也 不 是 tast_strmct -> thread_struct -> 
sp。sp0 值 是 在 每 个 线程 被 创建 时 就 指定 好 的 ， 不 会 变 
化 。 这 一 步 的 作用 是 为 了 让 后 续 CPU 从 该 线程 的 用 户 
态 切换 到 内 核 态 时 从 TSS 读 出 ESP0 使 用 的 ， 线 程 返回 
到 用 户 态 执行 时 ， 内 核 栈 中 会 变 空 ， 下 次 再 切换 到 内 
核 态 ， 依 然 会 从 最 初始 的 ESP0 开 始 压 入 内 容 。 

(100 将 目标 任务 IO 位 map 载 入 TSS。 内 核 将 
目标 任务 的 IO 位 map 基 地 址 从 目标 task_struct 中 载 入 
TSS 中 对 应 字段 。 

(11) 其 他 处 理 。 

(12) switch to 函数 返回 。 该 函数 结尾 的 ret 指 
令 ， 将 导致 CPU 从 当前 栈 弹 出 返回 地 址 ， 也 就 是 在 第 
7 步 中 被 压 入 的 目标 任务 的 EIP， 然 后 继续 从 EIP 指 向 
的 地 址 处 取 指 令 执 行 。 这 时 ， 任 务 切换 完毕 ， 新 任务 
开始 执行 。 

(13) 弹出 之 前 压 栈 的 EBP。 

(14) 弹出 之 前 压 栈 的 EFLAGS。 

(15) 从 context_switch() 返 回 。 目 标 任务 从 
context_switch() 返 回 ， 如 果 还 有 高 层 函数 ， 则 继续 返 
E, 一 直到 目标 线程 的 整个 内 核 态 部 分 运行 完毕 ， 返 
回 到 用 户 态 继续 运行 。 在 这 期 间 如 果 再 次 发 生 各 种 原 
导致 的 任务 切换 ， 则 会 重复 上 述 流程 。 

可 以 看 到 ， 任 何 线程 发 生 任务 切换 ， 都 是 发 生 在 
内 核 态 的 context_ switch 函数 内 部 ， 而 且 任何 线程 被 重 
新 运行 之 后 ， 都 会 继续 运行 context_switch 函 数 结尾 的 
代码 ， 没 过 多 久 便 会 ret 返 回 到 函数 外 面 继续 执行 后 续 
步骤 。 

利用 这 种 方式 ，CPU 永 远 认为 它 在 运行 同一 个 线 
程 ， 其 实 底下 是 被 内 核 给 偷梁换柱 了 ， 在 任务 切换 过 
程 中 TSS 中 的 多 数字 段 从 未 变 过 。 内 核 利 用 这 种 软 切 
换 方式 ， 可 以 大 幅 提升 切换 时 的 效率 和 速度 。 比 如 ， 
内 核 可 以 保证 切换 时 ， 通 用 寄存 器 中 都 清空 了 ， 所 以 
不 需要 保存 和 恢复 。 而 如 果 利用 CPU 自主 切换 ， 则 由 


于 CPU 无 法 感知 哪个 通用 寄存 器 中 有 中 间 结 果 ， 所 以 
CPU 会 一 股 脑 儿 全 部 保存 ， 速 度 就 慢 了 ;另外 ， 段 寄 
存 器 也 无 须 保存 和 切换 ， 而 CPU 硬 切 换 的 话 则 无 法 感 
知 当 前 OS 内 核 到 底 有 没有 使 用 Flat 段 模式 ， 需 要 全 部 
保存 /恢复 ， 所 以 这 就 进一步 提升 了 速度 。 其 次 ， 软 切 
换 也 节省 了 CPU 硬 切换 时 做 的 一 系列 权限 检查 、 任 务 
苦 套 判断 等 烦琐 步骤 。 还 有 ， 如 果 为 每 个 线程 都 设置 
一 个 TSS， 那 么 其 描述 符 会 被 放置 到 GDT 中 ， 而 GDT 
是 有 容量 上 限 的， 这 也 会 导致 系统 的 线程 数量 也 有 上 
限 ， 而 使 用 软 切 换 ， 可 以 打破 这 一 限制 。 还 有 ， 如 果 
为 每 个 线程 保存 一 份 TSS 的 话 ， 会 占用 更 多 内 存 空间 。 

Linux 不 允许 从 用 户 态 直接 Call/Jmp 目标 TSS 选 择 
di (0 方式 切换 任务 ， 所 有 TSS 描 述 符 的 DPL 都 被 设 
置 为 0%， 所 以 权限 检查 会 不 通过 ， 从 而 禁止 之 。 另 外 
就 是 所 有 任务 使 用 唯一 的 一 份 TSS， 也 根本 没有 其 他 
TSS。 

如 图 10-64 所 示 为 Linux 3.4 版 本 内 核 与 任务 切换 相 
关 代 码 示意 图 。 其 中 ，switch_ to 被 定义 为 一 个 Macro 
CE) ， 其 并 非 函数 ， 调 用 了 Macro 时 ， 编 译 器 只 
是 将 Macro 内 的 代码 整体 嵌入 到 主体 代码 中 。 其 中 ， 
prev、next 分 别 为 旧 任务 和 新 任务 的 task_struct 结 构 
体 指 针 。prev_sp 和 next_sp 分 别 为 旧 任务 和 新 任务 的 
task struct -> thread struct -> sp。 这 些 关键 字 都 会 在 代 
码 中 加 以 说 明 ， 以 供 编译 器 知晓 ， 篇 幅 所 限 就 不 贴 出 
完整 代码 了 。 

Linux 内 核 的 不 同 版 本 在 任务 切换 方面 可 能 有 较 
大 变化 ， 但 是 万 变 不 离 其 宗 。 至 于 更 多 的 关于 任务 切 
换 方面 的 细节 ， 请 大 家 自行 了 解 。 相 信 有 了 上 面 的 
大 框架 ， 会 对 大 家 后 续 的 学 习 打 通顺 畅 的 认 知 思维 
路 径 。 
10.2.2.3 ”进程 0 的 创建 和 运行 


CPU 加 电 启 动 之 后 ， 会 从 一 个 固定 的 地 址 取 指 
令 执行 ， 然 后 一 直 在 后 续 指令 的 驱动 之 下 沿 着 这 个 
固定 地 址 继续 往 下 走 。 这 个 固定 地 址 上 的 代码 (位 
于 BIOS ROM 中 ) 就 是 计算 机 世界 演化 的 源头 所 在 。 
那么 ， 此 时 可 不 可 以 说 CPU 是 在 执行 某 个 线程 或 者 
进程 呢 ? 不 可 以 ， 因 为 线程 和 进程 是 操作 系统 虚拟 
出 来 的 概念 ， 虽 然 前 文中 一 直 把 线程 /进程 看 作 “ 代 
码 流 ”， 虽 然 CPU 此 时 也 在 执行 代码 流 ， 但 是 这 些 
最 初始 的 代码 流 并 非 操作 系统 的 一 部 分 ， 其 属于 
BIOS 的 一 部 分 。 这 段 最 原始 的 代码 流 ， 对 于 计算 机 
启动 之 后 的 演化 过 程 而 言 ， 就 是 其 祖先 ， 就 是 牛顿 
所 说 的 “上 帝 之 手 ”。 

上 帝 当 初 赋予 宇宙 初始 状态 的 时 候 ， 宇 宙 中 可 
能 还 没有 恒星 、 行 星 、 中 子 星 、 黑 洞 。 万 有 引力 作为 
演化 的 前 提 条 件 ， 正 如 电源 的 电压 作为 CPU 芯片 运行 
的 前 提 条 件 一 样 ， 引 力 将 万 物 相 互 吸引 ， 电 子 也 总 是 
往 低 电位 处 流动 ， 身 在 宇宙 中 的 智慧 体 ， 并 不 知道 为 
什么 会 有 万 有 引力 ，CPU 电 路 也 并 不 知道 为 何 电子 总 
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#define switch to(prev, next, last) 
dot 


unsigned long ebx ec, edx, esi, edi; 


asm volatile( 


“pushfl\n\t” V/ 压 入 FLAGS 到 旧 任 务 的 内 核 栈 中 

“pushl %%ebp\n\t” VW/ 压 入 EBP 到 | 日 任务 的 内 核 栈 中 

"том %%esp,%[prev_spJ\n\t”// 将 |B 任 务 的 ESP 保 存 到 jthread_struct 结 构 中 

"том %Inext_sp],%9%6esp\n\t 1/ 将 新 任务 FSP 装 入 ESP 寄 存 器 ， 内 核 栈 切换 到 新 任务 
"том $1f,%[prev прим“ теі prev->thread.ip 中 
“pushl 3e[next_ipJNnNt /将 新 任务 之 前 保存 的 ElP 庄 入 到 j 新 任务 的 内 核 拷 中 
“jmp switch to\n” HIRE switch То ИЛАТ. 


"IA “popl %%ebp\n\t” [FEES GERENS , SSIEBPEEFES 
“popîl\n” ТВЕНА АСУ Е 
"ret ВЕСНЕ 


static inline void load spO(struct tss struct "tss, struct thread struct "thread) 


tss->x86 tss.spO = thread-» sp0; 
) 


. Switch to(struct task struct *prev p, struct task struct *next_p) 


f 


struct thread struct *prev = &prev p-»thread, 
*next - &next p-»thread; 
int cpu = smp processor 140; 
struct tss struct *tss = Bper « сри(іпі 1 tss, cpu); 
fpu switch t fpu; 
Три = switch fpu prepare(prev p, next p, сри); 
load spOltss next); 
lazy save gs(prev-»9s); 
ood. | TLS(next, cpu); 
if (get kernel гр && unlikely(prev-»iopl |= next-»iopl)) 

set iopl тавК(пехі->іорі); 
if (unlikely(task | thread | info(prev p)-»flags & ТІР WORK CTXSW PREV || 

task thread | info(next p)- »flags & TIF WORK ‹ CTXSW. | NEXT) 
Switch to. ) xtra(prev | p, next p, tss); 

arch end context switch(next р); 
ІҒ(ргеу->06 | next-»gs) 

lazy load gs(next-» os); 
switch fpu finish(next p, fpu); 
percpu write(current task, next p); 
return prev p; 


struct thread struct ( 


struct desc struct 
unsigned long 
unsigned long Sp; 
unsigned long Sysenter cs; 
unsigned long ip; 
unsigned long 
struct perf event 


tls array[GDT ENTRY TLS ENTRIES]; 
5р0; 


gs; 
*ptrace_bps[HBP_NUMJ; 
unsigned long debugreg6; 

unsigned long ptrace dr7; 

unsigned long c2; 

unsigned long trap пг; 

unsigned long error code; 


struct fpu fpu; 


struct vm86 struct user 
unsigned long 

unsigned long 

unsigned long 

unsigned long 

unsigned int 

unsigned int saved gs; 
unsigned long *io bitmap ptr; 
unsigned long iopl; 

unsigned io bitmap max; 


*vm86 info; 
screen bitmap; 
v86flags; 
v86mask; 
saved зрб; 
saved fs; 


图 10-64 Linux 3.4 版 本 内 核 与 任务 切换 相关 代码 示意 图 


在 不 停 冲击 着 每 个 与 门 或 门 非 门 。 
上 帝 可 能 当初 在 宇宙 中 选 定 了 若干 
坐标 点 ， 然 后 将 一 股 质子 电子 对 
ATR) 放置 在 每 个 点 上 ， 然 后 
施加 万 有 引力 ， 氧 元 素 逐 渐 吸引 形 
成 致密 气 团 (星云 ) ， 并 发 生 早期 
聚变 形成 氨 等 元 素 ， 之 后 ， 在 中 心 
强大 压力 之 下 发 生 大 规模 核 聚 变 ， 
聚变 产生 的 爆炸 力 对 抗 万 有 引力 达 
到 平衡 态 ， 最 后 在 黑暗 的 宇宙 中 亮 
起 了 无 数 个 具有 稳定 大 小 的 爆炸 火 
团 并 持续 燃烧 着 ， 宇 宙 大 舞台 上 顿 
时 火星 四 射 。 当 每 个 火星 的 燃料 消 
耗 殉 尽 时 ， 爆 炸 力 无 法 对 抗 万 有 引 
力 ， 后 者 从 而 将 物质 继续 压缩 ， 恒 
星 爆炸 成 红 巨星 ， 释 放出 大 量 聚 变 
之 后 的 重 元 素 ， 比 如 铁 ， 这 些 元 素 
形成 固态 物质 ， 被 抛 向 孕育 它 的 、 
像 溶液 一 样 的 星云 中 。 还 是 万 有 引 
JER, ЕН АЛАН А 
扰 ， 最 后 演变 为 行星 ， 万 有 引力 继 
续 将 红 巨 星 压 缩 ， 瞬 间 的 永恒 ， 被 
压 爆 的 红 巨 星 一 一 超新星 ， 照 亮 了 
整个 宇宙 ， 留 下 的 则 是 其 残骸 ， 中 
子 星 ， 其 以 几 十 甚至 几 百 分 之 一 秒 
的 自转 周期 高 速 自转 ， 并 不 断 向 外 
喷射 Y 射线 ， 成 为 宇宙 中 永恒 的 灯 
塔 ， 炫 耀 着 它 曾经 的 辉煌 。 一 些 红 
巨星 被 压 爆 的 更 为 强烈 ， 在 回 光 返 
照 之 后 形成 了 深 答 的 黑洞 ， 诉 说 着 
物 极 必 反 的 哲理 。 

可 能 这 个 宇宙 对 于 上 帝 而 言 
只 不 过 是 其 某 个 烧瓶 里 的 一 场 物理 
和 化 学 的 爆炸 反应 而 已 。 上 帝 真 的 
很 会 玩 。 底 层 的 系统 程序 员 也 很 会 
玩 。BIOS 中 的 初始 化 代码 会 跳 转 到 
OS 的 bootloader 程 序 执行 ， 后 者 将 进 
一 步 的 初始 化 代码 (setup.s 和 head. 
s) 复制 到 内 存 ， 然 后 跳 转 到 setup. 
s 运 行 ， 开 始 自我 演化 过 程 。 初 始 
化 代码 随即 设置 中 断 向 量 和 中 断 
服务 程序 ， 中 断 服务 程序 需要 被 预 
先 准备 和 设置 好 ， 设 置 各 种 外 部 设 
备 等 ， 以 及 设置 好 系统 调用 服务 程 
序 以 及 将 其 注册 到 int 80h 中 断 向 量 
处 。 另 外 ， 还 需要 设置 好 外 部 时 钟 
发 生 器 的 时 钟 中 断 发 生 间隔 ， 设 置 
好 之 后 ， 虽 然 发 生 器 会 按照 固定 间 
隔 向 CPU 发 送 中 断 ， 但 是 由 于 CPU 
此 时 被 关闭 了 中 断 响应 ， 所 以 听 不 
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到 ， 所 以 ，OS 的 初始 化 过 程 才 暂 时 不 会 被 外 界 打 断 ， 
否则 ， 过 早 地 开启 中 断 响 应 ， 初 始 化 过 程 将 无 法 得 到 
控制 。 

当 OS 的 初始 代码 流 执行 到 一 定 程度 的 时 候 ， 便 开 
始 准备 创建 一 个 进程 ， 也 就 是 进程 0， 代 码 将 进程 0 所 
需要 的 全 部 数据 结构 (比如 各 种 段 选择 子 值 、LDT、 
TSS、task_struct 结 构 体 以 及 其 包含 指向 的 各 种 子 结 
构 体 等 ) 及 其 中 对 应 的 内 容 亲手 炮制 出 来 ， 并 为 该 
进程 分 配 好 对 应 的 页 目录 和 页 表 等 ， 并 将 对 应 数据 结 
构 的 指针 装 入 TR、CR3、GDTR、LDTR 等 相关 寄存 
器 中 。 那 么 ， 进 程 0 到 底 运行 哪个 程序 呢 ? 这 是 一 个 
微妙 的 问题 。 答 案 是 : 当 这 些 对 应 的 数据 结构 指针 被 
装 入 上 述 这 些 寄 存 器 之 后 ， 当 前 正在 运行 的 代码 流 ， 
会 自动 变 成 进程 0 的 代码 。 也 就 是 说 ，OS 的 初始 化 程 
序 ， 一 开始 没有 身 处 任何 一 个 进程 ， 当 创建 了 进程 所 
需 的 各 种 结构 并 将 其 指针 装 入 对 应 寄存 器 之 后 ， 当 前 
正在 执行 的 代码 流 自 然 就 被 纳入 到 了 进程 0 里 面 ， 只 
不 过 ， 该 进程 0 还 没有 经 过 洗礼 ， 也 就 是 ， 真 正 地 去 
经 历 一 次 任务 切换 。 

显然 ， 进 程 0 运行 在 内 核 态 ， 属 于 一 个 内 核 进 
程 ， 所 以 其 对 应 的 段 选择 子 中 的 CPL 会 为 Ring0， 当 
对 应 的 选择 子 被 装 入 对 应 的 段 寄存 器 时 ，CPU 根 据 该 
CPL 值 ， 会 放行 一 切 访 存 操 作 ， 以 及 放行 一 切 特权 指 
令 的 执行 。 同 时 ， 进 程 0 的 页 表 中 目前 只 有 指向 内 核 
数据 和 代码 区 物理 页 面 的 条 目 。 

那么 ， 进 程 0 的 EIP 寄 存 器 的 值 〈 位 于 task_struct 
-> thread struct -> ip， 以 及 位 于 TSS 中 (Linux 2.4 内 
核 之 前 ) ) 应 该 被 设置 为 什么 ? 当前 代码 是 不 断 执 
行 的 ，EIP 不 断 变化 ， 这 不 成 了 鸡 生 蛋 生 鸡 的 问题 
T4? 实际 上 ，EIP 可 以 被 设置 为 任意 值 ， 比 如 全 
0。 因 为 CPU 此 时 并 不 会 去 在 意 TSS 或 者 task_struct 
中 的 ip 值 ， 这 个 值 本 身 就 是 旧 的 ， 仅 当 发 生 任务 切 
换 时 ， 或 者 由 CPU 自动 将 当前 最 新 EIP 保 存 到 TSS 
(Linux 2.4 之 前 版 本 ) ， 或 者 如 图 10-63 中 第 6 步 所 
示 由 软件 来 保存 到 thread_struct 中 (Linux 2.4 及 之 后 
版 本 ) 。 

进程 0 继续 执行 ， 已 经 快 到 尾声 了 。 进 程 0 会 将 自 
己 的 task_struct 结 构 体 的 指针 放 入 一 个 任务 运行 队列 
中 ， 该 队列 目前 只 有 进程 0 的 task_struct 指 针 被 存 入 ， 
这 也 是 该 进程 为 何 被 称 为 进程 0 的 原因 ， 其 Process 
ID=0， 位 于 队列 首部 。 进 程 0 是 OS 的 初始 化 代码 运行 
之 后 逐渐 形成 的 第 一 个 细胞 ， 是 万 物 之 母 。 氢 元 素 此 
时 已 经 演化 成 了 恒星 本 体 ， 但 是 它 还 没 被 点 亮 ， 万 事 
俱 备 ， 只 从 东风 。 

至 此 ，CPU 的 中 断 响应 依然 没有 被 打开 。 如 果 
说 将 上 述 一 切 准备 好 的 是 上 帝 的 左手 ， 那 么 这 个 东 
风 就 是 上 帝 的 右手 。 最 后 ， 进 程 0 会 执行 一 条 重要 的 
指令 STI (Set Interrupt) ， 打 开 CPU 对 中 断 的 响应 。 
从 此 ， 源 源 不 断 的 中 断 〈 比 如 时 钟 中 断 ) 将 向 CPU 
ek. 


进程 0 的 STI 指 令 刚 刚 执 行 完毕 之 后 ，CPU 很 有 
可 能 会 马上 收 到 时 钟 中 断 ， 于 是 ， 进 程 0 就 被 中 断 在 
了 STI 指 令 处 ，CPU 发 现 中 断 之 前 的 CS 段 选择 子 寄存 
器 中 的 CPL=Ring0， 所 以 在 发 生 中 断 之 后 ， 并 不 会 
切换 栈 ， 因 为 中 断 前 后 都 运行 在 同一 个 特权 级 别 ， 
所 以 只 硬 压 入 EFLAGS、CS、EIP 这 三 个 寄存 器 到 当 
前 的 栈 中 。CPU 执 行 时钟 中 断 服务 程序 。 所 有 的 中 
断 服务 程序 ， 之 前 都 已 经 被 内 核 初始 化 代码 安放 和 
设置 好 了 。 在 时 钟 中 断 服务 程序 中 ， 首 先 软 压 入 相 
应 的 寄存 器 (如 图 10-63 所 示 步 又) ， 然 后 会 做 比如 
更 新 当前 系统 时 间 的 操作 ， 以 及 检查 任务 运行 队列 
中 是 否 有 需要 执行 的 任务 ， 由 于 当前 任务 队列 中 只 
有 进程 0 这 个 任务 ， 所 以 时 钟 中 断 服 务 程 序 会 调用 前 
文中 所 说 的 swite_to， 切 换 到 进程 90。 可 以 看 到 ， 这 
相当 于 切换 前 和 切换 后 执行 的 是 同一 个 进程 ， 这 完 
全 没有 问题 ， 只 不 过 感觉 有 点 儿 奇 怪 而 已 ， 比 如 图 
10-63 中 的 第 6、7 两 步 ， 其 实 操作 的 是 完全 相同 的 字 
段 ， 第 6 步 放 进去 ， 第 7 步 再 拿 出 来 ， 做 了 无 用 功 ， 
但 是 为 了 保证 程序 的 统一 ， 这 个 无 用 功 也 没什么 
问题 。 

将 上 述 过 程 结合 Linux 2.6.39.4 版 本 的 实际 源 代码 
做 个 展示 。BIOS 从 硬盘 上 载 入 Bootloader 执 行 ， 后 者 
做 一 些 硬件 级 早期 初始 化 动作 《〈 比 如 为 保护 模式 做 好 
各 种 准备 并 进入 保护 模式 等 ) ， 同 时 将 内 核 代 码 复 
制 到 内 存 中 ， 最 后 跳 转 到 内 核 代 码 的 入 口 执行 ， 也 
就 是 图 10-65 中 的 1386_start_kernel0 处 执行 。 该 函数 就 
是 x86 处 理 器 平台 下 的 内 核 主 体 代码 的 顶层 入 口 。 该 
代码 会 做 一 些 内 核 早 期 初始 化 操作 ， 最 后 调用 start_ 
kernel()。 

函数 start_kernel0 中 做 了 大 量 的 操作 系统 内 核 初 
始 化 操作 ， 其 中 ，sche_init0 函 数 内 部 封装 了 上 文 所 述 
的 初始 化 进程 0 的 那些 步骤 〈 设 置 对 应 的 段 寄 存 器 、 
TSS、LDT、GDT 等 ) ， 篇 幅 所 限 就 不 贴 出 该 函数 具 
体 代 码 了 。 这 个 函数 返回 之 后 ，start_kernel() 中 后 
续 的 代码 便 被 认为 属于 而 且 正 运行 在 进程 0 中 了 ， 如 
图 10-66 所 示 。 

然后 继续 执行 到 local_irq_enable() 函 数 ， 其 中 封 
装 了 汇编 指令 STI， 这 一 步 打开 了 CPU 对 中 断 的 响 
应 ， 在 时 钟 中 断 触 发 下 ， 进 程 0〈 也 就 是 当前 正在 运 
行 的 代码 ) 不 断 被 打 断 但 是 又 继续 返回 断 点 执行 ， 性 
能 也 有 了 些许 下 降 ， 如 图 10-67 所 示 。 

然后 继续 初始 化 一 些 其 他 事情 。 比 如 ， 其 中 有 好 
几 步 是 用 于 初始 化 内 核 的 slab 缓 存 ， 还 记得 10.1.8.5 节 
中 介绍 过 的 内 核 slab 机 制 么 ? start kernel0 函 数 中 的 
fork init、proce_caches_init 等 这 些 子 步骤 ， 如 图 10-68 
所 示 就 是 在 为 内 核 置办 好 针对 对 应 数据 结构 的 各 个 
slab 零 售 店 。 从 如 图 10-68 所 示 的 代码 中 可 以 看 到 在 
proc_caches_init 函 数 中 分 别 初始 化 了 针对 信号 、 打 开 
的 文件 、mm、 vm area_struct 这 些 数 据 结 构 相 适 配 的 
slab 缓 存 。 


void init 1386 start kernel(voiad) 


í | memblock init(); 


memblock x86 reserve range( ра symbol(& text), 


#ifdef CONFIG BLK DEV INITRD 


#10 计算 机 操作 系统 一 舞台 幕后 的 工作 者 EE 到 要 


symbol(& bss stop), 


if (boot params.hdr.type of loader && boot params.hdr.ramdisk image) ( 
/* Аззите only end is not page aligned */ 
u64 ramdisk image = boot params.hdr.ramdisk image; 


u64 ramdisk size 
u64 ramdisk end 


} 
#епаї+ 


boot params.hdr.ramdisk size; 
- PAGE ALIGN(ramdisk image * ramdisk size); 
memblock x86 reserve range(ramdisk image, ramdisk end, 


switch (boot params.hdr.hardware subarch) { 


case X86 SUBARCH MRST: 
x86 mrst early setup(); 
break; 

case X86 SUBARCH СЕ4100: 
x86 ce4100 early setup(); 
break; 

default: 
1386 default early setup(); 
break; 


} 
start kernel(); 
) « end i386 start kernel » 


10-65 1386 start kernel jfi fe 


asmlinkage void ілік Start Кегпе1(уо14) 

char * command line; 

extern const struct kernel param — start —param[], stop  param[]; 
Smp setup processor. id(); 


‹ 


ж 1е(); 

early boot irqs disabled = true; 
tick init(; 

boot cpu init(); 


page address init(); 
printk(KERN ў "Ns", Linux banner); 

setup arch(&command line); 

mm init owner(&init mm, &init tash); 

setup command line(command line); 

setup nr cpu ids(); 

setup per cpu areas(); 

smp prepare boot cpu(); 

build all zonelists(NULL); 

page alloc init(); 

printk(KERN NOTICE "Kernel command line: Xs", boot command Line); 


arly param(); 
Parse-args(FBooting KERel", static command Line, start раған, 


stop param - start param, 
Runknown, bootoption); 

pidhash init(); 

vfs caches init early(); 

sort main extable(); 

trap init(); 

m» init(); 


sched init(); 

preempt disable(); 

if (lirqs disabled()) ( 
printk(KERN WARNING 


local irq disable();] 
idr init cache(); 
perf event init(); 
rcu init(); 
radix tree init(); 
early irq init(); 
init IRQ(); 
prio tree init();| 
init timers(); 
hrtimers init(); 
softirq init(); 
timekeeping init(); 
time init(); 
profile init(); 
if (lirqs disabled()) 


1 
early boot irqs disabled - false; 
local irq enable(); 
gfp allowed mash = СЕР BITS MASK; 
kmem cache init late(); 
console init(); 
if (panic Later) 

panic(panic Later, panic param); 
lockdep info(); 
locking selftest(); 


#ifdef CONFIG BLK DEV INITRD 
if (initrd start 88 !initrd below start ok && 


#endif 


page to pfn(virt to page((void *)initrd start)), 
min Low pfn) ; 


initrd start = 0;) 


page cgroup init(); 
enable debug pagealloc(); 
debug objects mem init(); 
Ктетіеак init(); 

setup per cpu pageset(); 
numa policy init(); 

АҒ (Lote time init) 


Late time init(); 


sched clock init(); 

calibrate delay(); 

pidmap init(); 

anon vma init(); 
#ifdef CONFIG X86 

if (efi enabled) 


#endi f 


efi enter virtual mode(); 


thread info cache init(); 
cred init(); 

fork init(totalram pages); 
proc caches init(); 
buffer init(); 


key init(); 
security init(); 
dbg late init(); 
vfs caches init(totalram pages); 
signals init(); 
page writeback init(); 

#ifdef CONFIG PROC FS 
proc root init(); 


#endif 


cgroup_init(); 
cpuset init(); 
taskstats init early(); 
delayacct init(); 
check bugs(); 
acpi early init(); 
sfi init late(); 
ftrace init(); 
rest init(); 
} « end start, kernel » 


图 10-66 start КетеЮй Е 


ШПЕЕ ват 


#аећпе local іга enable() до ( raw local іга enable(); ) while (0) 

#4ейпе raw local irq enable() arch local irq enable() 

static inline void arch local irq enable(void) { native irq enable(); ) 

static inline void native іга enable(void) { asm volatile("sti": : :"тетогу"); ) 


图 10-67 local irq_enable0 函 数 


void. init proc_caches_init(void) 
Í sighand cachep = kmem cache create( е 
sizeof(struct sighand struct), 0, 
SLAB HWCACHE ALIGN|SLAB PANIC|SLAB DESTROY. BY ЕСІ 
SLAB NOTRACK, sighand ctor); 
signal cachep = kmem cache create( 
sizeof(struct signal struct), 0, 
SLAB HWCACHE ALIGN|SLAB PANIC|SLAB NOTRACK, NULL); 
files cachep - kmem cache create("files cache" 
sizeof(struct files struct), 0, 
SLAB HWCACHE ALIGN|SL 
fs cachep = kmem cache create 
sizeof(struct fs strui 
SLAB НЫСАСНЕ ALIGN|SLAB PANIC|SLAB NOTRACK, NULL); 
mm cachep - kmem cache create( 
sizeof(struct mm struct), ARCH MIN MMSTRUCT ALIGN, 
$1АВ_НИСАСНЕ ALIGN|SLAB. PANIC|SLAB-NOTRACK, NULL); 
Vm area cachep = KMEM CACHE(vm area struct, SLAB PANIC); 
ттар init(); 
} « end proc caches init » 


图 10-68 proc caches init() ЙЕ 


在 start kemel0 最 后 ， 调 用 rest_init0 函 数 ， 从 名 字 也 
可 以 看 出 ， 这 个 函数 中 封装 了 内 核 初始 化 过 程 中 所 有 剩 
余 的 代码 。 至 此 ， 内 核 的 执行 流程 如 图 10-69 所 示 。 

rest_initO 下 一 步 有 什么 大 动作 么 ? 它 会 做 一 件 大 
事 : 细胞 分 裂 。 


10.2.2.4 ”进程 1 和 2 的 创建 和 运行 


我 们 来 看 看 rest_init() 都 做 了 什么 ， 如 图 10-70 左 
侧 所 示 。 其 主要 做 了 三 件 大 事 : 利用 kernel thread() 
函数 创建 了 一 个 新 进程 ， 该 进程 的 入 口 为 kernel init() 


| NOTRACK, NULL); 


函数 ， 然 后 又 创建 了 一 个 新 进程 ， 入 口 为 kthreadd0 函 
数 。 它 生出 这 两 个 孩子 之 后 ， 又 做 了 一 些 杂事 之 后 ， 
就 去 调用 了 cpu_idle() 函 数 ， 该 函数 内 部 为 一 个 外 层 
while(1) 大 循环 媒 套 有 另 一 个 内 存 小 循环 ， 外 层 循环 永 
远 不 返回 也 不 退出 ， 所 以 ，cpu_idle0 成 了 进程 0 生命 
中 最 终 也 是 最 后 的 栖息 地 ， 永 远 在 这 个 函数 中 循环 转 
圈 。 我 们 后 文中 再 介绍 这 两 个 子 进程 的 情况 。 

如 图 10-70 右 侧 所 示 为 cpu_idle() 函 数 代码 ， 其 先 
做 一 些 准 备 和 判断 ， 然 后 调用 pm_idle0 函 数 ， 该 函数 
中 封装 了 能 够 让 CPU 做 到 节能 降 耗 的 机 器 指令 。 所 
以 ， 进 程 0 也 被 俗称 为 idle 进 程 ， 当 系统 内 没有 任何 
其 他 线程 运行 时 ， 系 统 能 够 保证 进程 0 总 是 可 用 的 ， 
总 能 被 调度 到 CPU 上 运行 ， 从 而 让 CPU 温度 降低 。 当 
然 ，idle 进 程 并 不 会 持续 霸占 CPU， 它 在 每 次 进入 内 
层 的 while 循 环 时 都 会 调用 need_resched() 函 数 判断 当 
前 系统 中 是 否 有 其 他 等 待 运行 的 线程 ， 如 果 有 则 跳出 
内 层 循环 ， 进 入 外 层 循环 ， 调 用 schedule() 函 数 ， 该 
函数 会 尝试 重新 在 任务 队列 中 选择 合适 的 (高 优先 级 
的 、 正 在 等 待 运行 的 ， 或 者 根据 其 他 策略 ) 线程 来 运 
行 ，schedule0 函 数 内 部 会 调用 到 context switch 函数 ， 
后 者 继而 调用 switch to: (上 文 介绍 过 ) 来 切换 到 其 
他 任务 ， 从 而 暂停 进程 0 的 运行 ， 当 所 有 任务 都 空闲 
或 者 没有 其 他 任务 的 时 候 ， 又 会 继续 运行 进程 0， 继 


图 10-69 rest_init0 执 行 前 内 核 初始 化 流程 示意 图 


void cpu, idle(void) 

{ int cpu = smp processor id(); 
boot init stack canary(); 
current thread info()-»status |- TS POLLING; 
while (1) { 


[static noinline void init refok rest init(void) 
{ int pid; 
rcu scheduler starting(); 


tick nohz stop sched tick(1); 
while (!need resched()) ( 
check pgt cache(); 
rmb(); 


kernel thread(kernel init, NULL, CLONE FS | CLONE SIGHAND); 
numa default policy(); 

pid = kernel thread(kthreadd, NULL, CLONE FS | CLONE FILES)j| 
rcu read lock(); 

hthreadd task = find task by pid ns(pid, &init pid ns); 
rcu | read | | unlock(); 

complete(&kthreadd « done); 

init idle bootup task(current); 

preempt enable no resched(); 

schedule(); 

preempt disable(); 

cpu idle(); 


) « 


if (cpu is offline(cpu)) 
play dead(); 

local irq disable(); 

stop critical timings(); 

pn idLe(); 

start critical timings();) 
tick nohz restart sched tick(); 
preempt enable no resched( B 
schedule(); 
preempt disable(); 


) 
end cpu idle » 


图 10-70 rest пио cpu idle() 


long do, fork(unsigned long clone flags,unsigned long stack sta 


t 


续 进 入 外 层 大 循环 转圈 。 

进程 0 是 Linux 系 统 中 的 所 有 后 续 进程 的 源头 ， 对 
于 kernel init 和 kthreadd 这 两 个 进程 而 言 ， 进 程 0 是 它 
们 的 父 进程 ， 它 俩 则 是 进程 0 的 子 进程 。 这 两 个 子 进 
程 后 续 会 采用 同样 的 方式 生出 各 自 的 子 进程 ，kernel_ 
init 负 责 生出 各 种 用 户 态 进程 ， 而 kthreadd 负 责 生出 各 
种 内 核 级 线程 (比如 负责 虚拟 内 存 swap 的 kswapd、 
负责 将 内 核 缓冲 区 脏 数据 写 入 硬盘 的 kflushd 等 ) 。 典 
型 的 用 户 态 进程 比如 负责 人 机 交互 的 shell 程 序 进程 ， 
shell 再 负责 生出 各 种 用 户 程序 进程 ， 比 如 你 在 shell 命 
令 行 下 运行 了 ./app1.sh 程 序 ， 那 么 shell 进 程 将 会 生出 
一 个 app1 子 进程 运行 ，shell 自 身 则 选择 阻塞 (调用 
wait/waitpid0 函 数 ) 等待 app1 结 束 之 后 自己 再 运行 ， 
这 样 的 话 appl 运 行 的 时 候 ，shell 就 不 会 跳出 来 捣乱 
了 ， 和 否则 由 于 时 钟 中 断 产生 的 任务 切换 ， 会 导致 屏幕 
上 一 会 儿 出 现 app1 运 行 时 的 画面 ， 一 闪 而 过 又 出 现 了 
shell 命 令 行 ， 再 快速 闪 回 去 ， 循 环 。 这 样 电脑 就 没 法 
用 了 。 当 然 ， 进 程 也 可 以 在 生出 子 进 程 之 后 自己 继续 
运行 ，GUI 下 基本 都 是 这 种 模式 。 

下 面 我 们 来 看 一 下 kernel thread0 这 个 函数 是 如 何 
创建 新 进程 的 ， 如 图 10-71 所 示 。 其 首先 初始 化 一 个 
模板 为 pt_regs、 名 称 为 regs 的 结构 体 ， 其 会 被 用 于 存 
放 要 创建 进程 的 所 有 相关 寄存 器 值 。 创 建 完 后 ， 先 将 
其 全 部 清 零 (调用 memset 函 数 ) ， 然 后 开始 填充 其 中 
的 一 些 项 目 为 对 应 的 值 。 比 如 将 regs.si 字 段 填充 为 本 
进程 要 运行 的 程序 入 口 的 地 址 ， 也 就 是 调用 者 传递 给 
kernel thread() 函 数 的 第 一 个 参数 *f。 其 次 也 初始 化 
填充 了 CS 和 SS 寄存 器 为 ”KERNEL_ CS 和 KERNEL _ 
DS， 这 两 个 符号 属于 Macro (E) ， 其 值 是 固定 值 ， 
也 就 是 Linux 系 统 下 通用 的 段 选择 子 寄存 器 值 (还 
记得 前 文中 提 到 过 的 Linux 使 用 Flat 分 段 模式 么 ? 
所 有 内 核 程序 使 用 的 都 是 同一 个 大 段 ， 如 图 10-14 
所 示 ) 。 


struct pt regs *regs, unsigned long stack size, 
int _ user *parent tidptr, int 
struct task struct *p; 
int trace - 0; 
long nr; 
if (clone flags & CLONE NEWUSER) { 
if (clone flags & CLONE THREAD) 
return -EINVAL; 


if (!capable(CAP SYS ADMIN) || !capable(CAP SETUID) || 


Icapable(CAP SETGID)) 
return -EPERM;) 
if (likely(user mode(regs))) 
trace - tracehook prepare clone(clone flags); 


р = copy process(clone flags, stack start, regs, stack size, 


child tidptr, NULL, trace); 


. user *child tidptr) 


$8108 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 Er 


int kernel thread(int (*fn)(void +), void *arg, 
unsigned long flags) 
struct pt regs regs; 
memset(&regs, 0, sizeof(regs)); 
regs.si - (unsigned long) fn; 
regs.di = (unsigned long) arg; 
Sifdef CONFIG X86 32 
regs.ds = _ USER DS; 


regs.es = USER DS; 
regs.fs = ^ KERNEL PERCPU; 
regs.gs = — KERNEL STACK CANARY; 
#else 
regs.ss = _KERNEL DS; 
#endif 


regs.orig_ax = -1; 
regs.ip = (unsigned long) kernel thread helper; 
regs.cs - KERNEL CS | get kernel rpl(); 
regs.flags = X86 EFLAGS IF | 9х2; 
return do fork(flags | CLONE VM | CLONE UNTRACED, 
0, &regs, 9, NULL, NULL); 
} « end kernel thread » 


图 10-71 kernel thread0 流 程 


Tegs.ip 字 段 填 充 为 kernel thread helper? % fJ 
地 址 ， 这 里 有 个 疑惑 在 于 ， 为 何不 把 要 运行 的 目 
标 函 数 kernel_init 的 指针 填 入 regs.ip， 而 是 填 入 了 
regs.si 字 段 ? 这 样 岂 不 是 新 进程 运行 时 会 从 kernel_ 
thread_helper 而 不 是 kernel_init 函 数 开 始 执 行 么 ? 
这 是 故意 为 之 的 ， 任 何 内 核 线 程 都 被 设计 为 从 该 
helper 函 数 进入 ， 该 函数 做 一 些 准 备 后， 再 调用 si 寄 
存 器 中 的 目标 函数 〈kernel_init) 指针 执行 从 而 进 
入 正轨 。 而 当 目 标 函 数 执行 完 返回 时 ， 也 会 返回 到 
kernel_thread_helper 函 数 ， 该 函数 会 继续 调用 do _ 
exit 函 数 将 当前 进程 销毁 掉 。 这 也 是 其 被 称 为 helper 
的 原因 。 

填充 好 regs 结 构 体 后 ， 继 续 调用 do_fork 函 数 ， 
如 图 10-72 所 示 。 该 函数 非常 重要 ， 其 负责 创建 新 进 
程 。 其 创建 新 进程 的 手段 很 直接 ， 直 接 把 当前 进程 

(进程 0 的 task_struct、 页 表 、 内 核 栈 等 关键 数据 结 
构 复 制 一 份 ， 就 像 细 胞 分 裂 一 样 。 这 个 过 程 的 具体 执 
行者 是 copy_process 函 数 ， 篇 幅 所 限 就 不 贴 出 该 函数 


if (115 ERR(p)) { 
struct completion vfork; 
trace sched process fork(current, p); 
nr - task pid vnr(p); 
if (clone flags & CLONE PARENT SETTID) 
put user(nr, parent tidptr); 
if (clone flags & CLONE VFORK) ( 
p-»vfork done - &vfork; 
init completion(&vfork);) 
audit finish fork(p); 
tracehook report clone(regs, clone flags, nr, p); 
p-»flags &- -РЕ STARTING; 
wake up new task(p, clone, flags); 
tracehook report clone complete(trace, regs, 
clone flags, nr, p); 
if (clone flags & CLONE VFORK) { 
freezer do not count(); 
wait for completion(&vfork); š 
freezer_count(); 
tracehook report vfork done(p, nr); ) 
} « end if 115 ERR(p) » else ( 
nr = PTR ERR(p); 
} 


return пг; 
) « end do fork » 


10-72 ”do_fork0 函 数 流 程 


加 晴晴 电压 因 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


代码 了 ， 大 家 自行 了 解 。 最 后 ，do_fork 调 用 wake_ 


up_new_task 函 数 ， 将 新 进程 的 task_struct 结 构 体 指针 
加 入 到 任务 队列 中 ， 等 待 被 调度 运行 。 

有 个 很 大 的 疑惑 出 现 了 ， 既 然 是 细胞 分 裂 ， 那 
么 分 裂 出 来 的 细胞 与 原来 的 细胞 一 模 一 样 ， 运 行 的 
程序 代码 也 会 一 模 一 样 ， 此 时 岂 不 是 形成 了 进程 0 的 
另 一 个 分 身 ， 同 时 在 运行 两 个 进程 0? 新 进程 会 从 老 
进程 的 数据 结构 被 复制 完 的 那个 时 间 点 开始 继续 运 
17? 此 时 岂 不 是 会 有 很 大 问题 ， 比 如 原始 的 进程 0 以 
当前 系统 时 间 为 输入 ， 对 某 个 数据 做 了 更 改 ， 而 分 
身 进程 0 由 于 执行 相同 的 逻辑 ， 也 以 当前 系统 时 间 为 
输入 对 同样 的 数据 做 更 改 ， 但 是 由 于 分 身 ， 进 程 0 与 
原始 进程 0 运行 的 时 机 可 能 不 同 ， 所 以 其 获取 到 的 系 
统 时 间 也 不 同 ， 那 么 得 到 的 结果 也 不 同 。 这 一 对 双 
胞 胎 的 存在 会 导致 系统 产生 错乱 ， 如 果 能 够 保证 这 
两 个 双胞胎 进程 严格 同步 ， 也 就 是 必须 保证 同时 在 
运行 ， 每 一 步 都 严格 同步 ， 做 同样 的 事情 ， 得 到 相 
同 的 输入 ， 给 出 相同 的 输出 ， 而 这 在 实际 上 是 不 可 
能 的 ， 即 便 是 这 两 个 进程 0 同时 运行 在 两 个 CPU 核心 
上 ， 核 心 频率 微小 的 差异 ， 外 部 中 断 等 各 种 事件 也 会 
导致 它 俩 失去 同步 。 

显然 ， 利 用 do_fork 派 生出 的 新 进程 ， 必 须 被 赋 
予 不 同 的 函数 入 口 ， 走 不 同 的 分 支 ， 与 父 进程 彻底 划 
清 界限 分 道 扬 镰 。 所 以 ， 在 copy_process 函 数 内 其 实 
还 调用 了 copy_thread 函 数 ， 如 图 10-73 所 示 。 该 函数 
就 是 用 于 形成 真正 的 分 叉 的 ， 这 也 是 do_fork 中 fork 的 
意思 。 

看 上 面 代 码 ， 该 函数 首先 为 子 进程 创建 一 个 
新 的 pt_reg 结 构 体 childregs。pt_regs 结 构 体 模板 中 
的 寄存 器 严格 按照 中 断 / 系 统 调用 后 被 CPU 自主 压 
入 的 5 个 用 户 态 寄存 器 值 以 及 被 系统 调用 入 口 汇编 
程序 SAVE_ALL 压 栈 之 后 的 寄存 器 顺序 排放 ，pt_ 
regs 结 构 体 指针 指向 的 就 是 这 块 寄存 器 保存 区 的 基 
地 址 (低位 地 址 ) 。 然 后 调用 task_pt_regs 函 数 将 
childregs 结 构 体 的 基地 址 指向 子 进程 的 内 核 栈 中 的 对 
应 位 置 ， 这 样 ， 凡 是 向 childregs 结 构 体 的 写 入 ， 实 
际 上 是 写 入 了 子 进程 内 核 栈 最 底部 中 对 应 的 条 目 。 


int Copy thread(unsigned long clone flags, unsigned long sp, 


unsigned long unused, 
struct task struct *p, struct pt regs *regs) 


i 
struct pt regs *childregs; 
struct task struct *tsk; 
int err; 
childregs = task pt, regs(p); 
*childregs - *regs; 
childregs-»ax - 0; 
childregs-»sp - sp; 
p-»thread.sp = (unsigned long) childregs; 
p-»thread.spo = (unsigned long) (childregss1); 
p-»thread.ip = (unsigned long) ret from fork; 
task usergs(p) = = get_user_gs(regs); 
»thread.io bitmap ptr = NULL; 
[n 7 current; 
err = -ENOMEM; 


childregs 结 构 体 占据 的 位 置 就 是 内 核 栈 底部 的 被 压 栈 
的 寄存 器 部 分 。 

然后 ， 通 过 代码 *childregs = *regs 将 之 前 在 
kernel _ thread 函数 本 体 中 构造 的 regs 结 构 体 整体 复 
制 到 childregs 中 ， 这 就 实现 了 与 父 进 程 分 道 扬 镰 的 
作用 ， 因 为 regs 结 构 体 中 之 前 被 填充 了 子 进 程 执 行 
的 入 口 函 数 (kernel thread_helper， 以 及 最 终 目标 
入 口 函 数 kernel init) ， 所 以 ，regs 结 构 体 其 实 被 用 
来 预先 盛 放 这 些 分 又 参数 ， 然 后 再 将 regs 复 制 到 位 
于 子 进程 内 核 栈 中 的 childregs 结 构 体 (childregs 本 
身 就 是 子 进程 内 核 栈 底部 被 保存 的 寄存 器 部 分 的 化 
身 ) 中 ， 这 就 构造 出 了 一 个 子 进程 的 内 核 栈 ， 其 目 
的 是 打造 一 个 现场 ， 仿 佛 子 进程 之 前 已 经 存在 ， 只 
不 过 被 切换 出 去 了 ， 切 换 前 的 断 点 都 被 保存 在 内 核 
栈 中 ， 那 么 ， 要 运行 子 进程 ， 就 必须 模拟 一 个 中 断 
返回 操作 ， 也 就 是 执行 RESTOR_ALIL 宏 〈 见 图 10-50 
下 方 附近 ) ， 利 用 其 结尾 的 iret 指 令 ， 从 而 让 CPU 
自己 从 内 核 栈 中 弹出 EIP、CS、EFLAGS 寄 存 器 执 
行 ， 而 由 于 CS 被 设置 为 KERNEL_CS， 其 RPL 为 
Ring0， 所 以 CPU 知 道 这 是 要 返回 内 核 态 运行 ， 从 而 
只 弹出 三 个 条 目 。 这 个 过 程 ， 正 中 下 怀 ， 从 而 执行 
了 kernel thread_helper 函 数 ， 从 而 继续 执行 到 kernel_ 
init 函 数 。 

如 图 10-74 所 示 ， 将 regs 复 制 到 childregs 之 后 ， 
copy_thread 函 数 接着 会 将 childregs 结 构 体 的 指针 的 
值 赋值 给 子 进程 的 task_struct -> thread_struct.sp， 
也 就 是 p->thread.sp，p 和 thread 分 别 是 之 前 为 子 进 
程 按照 task_struct 和 thread_struct 模 板 创建 的 结构 体 
实例 。thread.sp 寄 存 器 保存 的 是 当前 正在 构造 的 内 
核 栈 现场 的 栈 顶 位 置 ， 也 就 是 childregs 的 基地 址 。 
然后 ， 将 childregs+1 的 位 置 赋值 给 p->thred.sp0， 
sp0 位 内 核 栈 为 空 的 时 候 的 位 置 ， 这 里 可 以 回忆 一 下 
图 10-63 中 的 情景 。childregs+1 在 C 语 言 中 是 一 种 指 
针 算 术 ， 其 并 不 是 “childregs 的 地 址 +1 字 节 ” 的 意 
思 ， 而 是 “childregs 的 地 址 +childregs 结 构 体 整体 尺 
寸 ” 的 意思 ， 所 以 ， 其 位 置 其 实 指向 的 就 是 内 核 栈 
的 栈 底 。 


if (unlikely(test tsk thread flag(tsk, TIF IO BITMAP))) ( 
p-»thread.io bitmap ptr = kmemdup(tsk-»thread.io bitmap ptr, 


IO BITMAP BYTES, ӨЕР KERNEL) ; 
if (Ip-»thread.io bitmap ptr) ( 
p-»thread.io bitmap max = 6; 
return -ЕМОМЕМ; ) 
set tsk thread flag(p, TIF IO BITMAP);) 
err = 0; 
if (clone flags & CLONE SETTLS) 
err = do set thread area(p, -1, 
(struct user desc ^ user *)childregs-»si, Ө); 
if (err 88 p-»thread.io bitmap ptr) ( 
kfree(p-»thread.io bitmap ptr); 
p-»thread.io bitmap max = 0;) 
return err; 
} « end copy thread » 


memset(p-»thread.ptrace bps, Ө, sizeof(p-»thread.ptrace bps)); 


图 10-73 copy _thread0 函 数 流程 
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图 10-74 ”childregs 与 sp/sp0 指 针 的 关系 


由 于 是 新 建 内 核 线 程 ， 该 线程 之 前 并 没有 用 户 
态 执行 部 分 ， 但 是 目前 这 个 内 核 栈 现场 是 被 构造 出 来 
的 假 现场 ， 所 以 仍然 需要 有 用 户 态 的 那 老 五 样 Css. 
esp、eflags、cs、ip) ， 不 过 这 些 值 一 开始 在 regs 结 构 
体 中 就 是 全 零 〈 创 建 时 先 被 全 部 清 零 ) ， 所 以 复制 过 
来 也 会 是 全 0， 其 也 毫 无 用 处 ， 因 为 该 子 进程 会 运行 
在 内 核 态 (regs.cs 被 填充 为 KERNEL CS) 。 

至 此 ， 子 进程 的 现场 被 精确 构造 完毕 ， 其 task_struct 
指针 也 被 加 入 到 了 运行 队列 。 当 下 一 次 中 断 到 来 时 ， 其 
就 有 机 会 被 调度 运行 。 值 得 一 提 的 是 ， 当 wake up new_ 
task 函 数 被 调用 之 后 ， 就 可 能 因为 收 到 外 部 中 断 而 导致 
下 次 运行 的 是 子 进程 而 不 再 是 进程 0。 子 进程 和 父 进程 
从 此 脱离 了 关系 ， 各 自 独 立 运行 ， 各 自 运行 的 时 机 也 不 
固定 、 不 可 预测 ， 但 是 这 并 不 没有 什么 问题 。 

上 述 的 整个 过 程 如 图 10-75 所 示 。kernel_init 进 
程 又 被 称 为 进程 1。 进 程 0 会 先后 生出 kernel_init 和 
kthreadd 两 个 子 进程 ， 方 式 是 一 样 的 。 这 两 个 子 进 
程 加 上 它们 的 父 进 程 ， 各 自 独立 运行 ， 时 机 不 固 
定 。 从 图 中 也 可 以 看 到 ，ret_from_fork 是 一 个 宏 ， 
这 个 宏 又 引用 了 其 他 宏 ， 一 直到 最 后 才 执行 到 iret 指 
令 ，iret 指 令 就 是 跳 转 到 kernel thread helper 的 最 后 一 
个 推手 ， 后 者 再 通过 调用 之 前 保存 在 esi 寄 存 器 中 的 
kernel init 函 数 地 址 ， 最 终 运 行 了 kernel пи, +B 
是 进程 1 的 最 终 实际 入 口 函 数 。 

在 do_fork 的 时 候 如 果 给 出 了 CLONE_VM 参 数 ， 
则 do_fork -> copy process -> copy_mm 一 路 调用 下 来 ， 
copy_mm 会 拿 到 这 个 参数 。 该 参数 是 为 了 提示 copy_ 
mm 函数 : 子 进程 与 父 进程 运行 在 同一 个 虚拟 地 址 空 
间 中 。 进 程 0 和 和 进程 1， 到 目前 ， 都 是 内 核 态 线程 ， 也 
就 是 它们 的 运行 权限 都 是 Ring0， 而 且 只 访问 内 核 态 
数据 区 。copy_mm 只 要 看 到 这 个 参数 ， 则 直接 将 父 进 
程 的 mm _struct 指 针 复 制 给 子 进程 的 mm _struct 指 针 ， 
让 它们 指向 完全 相同 的 内 存 数据 结构 和 内 存 区 域 ， 包 
括 页 表 等 。 这 就 是 为 什么 图 10-75 中 的 页 表 颜 色 为 混 
合 三 色 的 原因 ， 同 一 份 ， 大 家 共享 的 。 所 以 说 ， 到 目 
前 为 止 进程 9、1 和 2 其 实 可 以 被 看 作 三 个 独立 的 内 核 
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SRE 〈 不 是 进程 ) 了 。 

而 如 果 do_fork 时 不 给 出 CLONE_VM 参 数 ， 则 证 
明 新 进程 不 打算 与 旧 进 程 共享 虚拟 地 址 空间 ， 是 名 
副 其 实 的 进程 ， 则 copy_mm 函 数 会 为 新 任务 分 配 一 
个 新 的 mm _struct 结 构 ， 然 后 复制 mmap (所 有 的 vm_ 
area struct) 和 页 表 〈 只 复制 数据 结构 ， 并 不 复制 页 
面 中 的 内 容 ) ， 这 里 会 真 的 复制 ， 而 不 是 仅 复 制 指 
针 。 复 制 完 后 ， 父 子 进程 还 是 共同 指向 相同 的 数据 
结构 和 页 面 ， 但 是 会 多 做 一 步 ， 就 是 将 这 些 页 面 都 
设 为 只 读 权限 (方法 见 10.1 节 相关 段落 ) 。 设 置 为 只 
读 的 目的 ， 是 当 新 进程 对 页 面 进行 写 入 操作 时 ， 比 
如 新 进程 载 入 一 个 可 执行 文件 到 代码 段 执行 ， 会 对 
页 面 进 行 写 入 ， 此 时 CPU 会 产生 Page Fault， 然 后 由 
内 核 的 页 面 处 理 程序 负责 将 对 应 页 面 复制 一 份 到 新 
的 物理 页 ， 原 物理 页 解除 只 读 限制 ， 修 改 新 进程 对 
应 的 页 表 条 目 指向 新 页 面 ， 新 进程 就 可 以 写 入 了 。 
这 个 过 程 叫 作 Copy On Write (CoW， 准 确 地 说 应 该 
是 Copy On First Write) 。 

总 结 而 言 就 是 ， 如 果 给 出 了 CLONE_VM 参 数 ， 只 
复制 指针 ; 如 果 没 给 出 该 参数 ， 则 复制 mmap 和 页 表 ， 
同时 将 页 面 设 定 为 只 读 。 前 者 被 俗称 为 浅 复制 ， 后 者 
被 俗称 为 深 复制 。 不 管 怎样 ， 子 进程 刚 创建 完 时 ， 
与 父 进 程 是 共享 存储 器 的 。 带 着 CLONE_VM 参 数 创 
建 的 子 进程 ， 其 命运 注定 只 能 是 一 个 线程 ， 其 与 父 
进程 永远 共享 存储 空间 ， 共 享 代码 ， 但 是 它 可 以 执行 
与 父 进程 不 同 的 代码 流 ， 这 里 要 注意 ， 共 享 代码 并 不 
意味 着 连 代 码 流 都 得 一 样 ， 否 则 就 不 是 独立 线程 了 。 
而 没有 带 着 CLONE_VM 创 建 的 进程 ， 其 命运 有 了 些许 
变化 ， 其 可 以 选择 继续 与 父 进程 共享 存储 空间 ， 只 不 
过 只 能 读 ， 不 能 写 ， 对 于 一 个 常规 程序 来 讲 ， 不 写 入 
内 存 几乎 是 不 可 能 的 ， 当 子 进程 第 一 次 尝试 更 改 内 存 
时 ， 比 如 a=a+1， 就 对 应 着 stor 访 存 操作 ， 此 时 产生 Page 
Fault 后 ，a 变 量 所 在 的 页 面 会 被 内 核 复 制 一 份 ， 并 将 原 
页 面 和 复制 出 来 的 页 面 接触 只 读 ， 这 样 父 进程 就 可 以 
继续 写 入 原 页 面 ， 子 进程 则 使 用 新 复制 出 来 的 页 面 。 
产生 了 分 又 ， 这 又 一 次 体现 了 fork 这 个 词 的 含义 。 

一 个 疑惑 在 于 ， 为 何 子 进程 在 创建 完 后 必须 和 父 
进程 共享 存储 空间 呢 ? 其 实 可 以 被 设计 为 完全 不 共享 ， 
子 进程 所 有 数据 结构 都 是 空 的， 但 是 这 样 做 也 不 划算 ， 
因为 任何 进程 /线程 的 内 核 存储 器 空间 起 码 是 共享 的 ， 
那么 对 于 内 核 态 线程 ， 直 接 复制 一 份 mm _struct 指 针 就 
可 以 了 ， 因 为 整个 内 核 就 是 一 个 大 进程 ， 所 有 内 核 态 
线程 都 在 同一 个 大 虚拟 空间 内 运行 。 而 对 于 那些 想 要 载 
入 新 可 执行 文件 来 运行 的 用 户 态 子 进程 ， 其 内 核 区 与 
其 他 所 有 进程 共享 ， 无 须 新 建 一 份 ， 其 用 户 区 虽然 是 独 
享 ， 但 是 可 能 对 于 有 些 区 域 ， 父 子 进程 之 间 真 的 会 只 
读 访问 ， 那 么 此 时 也 无 须 新 建 一 份 ， 只 需要 写 时 复制 即 
可 。 为 何不 是 写 时 新 建 ， 而 是 复制 ? 因为 之 前 的 页 面 
中 可 能 只 有 少量 地 址 被 写 入 ， 而 页 面 中 原 有 的 数据 可 
能 还 会 被 子 进程 访问 到 ， 如 果 被 设计 为 新 建 ， 那 么 子 
进程 就 需要 重新 初始 化 新 页 面 中 的 数据 ， 代 价 变 高 。 
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在 一 些 场景 下 ， 父 进程 会 创建 出 多 个 子 进 程 来 与 
自己 协同 处 理 数据 ， 这 些 进程 之 间 可 能 会 有 大 量 的 数 
据 以 只 读 形式 来 访问 ， 只 有 少量 数据 是 每 个 进程 各 自 
独立 拥有 的 ， 此 时 ， 利 用 复制 +CoW 的 方式 最 划算 。 
于 是 这 种 形式 就 一 直 沿 袭 了 下 来 ， 就 算 子 进程 会 有 大 
部 分 数据 都 是 独立 供 自己 访问 的 ， 一 开始 创建 时 也 是 
用 CoW 方 式 。 

下 面 我 们 必须 来 看 一 下 kernel _init 入 口 函数 及 其 
下 游 的 程序 都 做 了 什么 ， 如 图 10-76 所 示 。 如 其 名 称 一 
样 ， 该 函数 会 继续 对 内 核 进行 初始 化 ， 可 以 说 是 内 核 后 
期 的 初始 化 ， 在 这 之 前 是 前 期 初始 化 (start_kernel 做 前 
期 初始 化 ， 然 后 创建 kemel init 进 程 并 委托 后 者 做 剩余 的 
后 期 初始 化 ， 自 己 则 转 去 执行 cpu idle 退 居 幕后 ) 。 


static int init kernel init(voia * unused) 
( wait for completion(&kthreadd done); 


) « en 


set mems allowed(node states[N HIGH MEMORY]); 
set cpus allowed ptr(current, cpu all mask); 
cad pid = task pid(current); 
= prepare cpus(setup max cpus); 
do pre smp initcalls(); 
lockup detector init(); 
snp initO; 
sched init зарб); 
do basic setup(); 
if (sys open((const char 1 
printk(KERN WARNING "War 
(void) sys dup(0); 
(void) sys dup(0); 
if (!ramdish execute command) 
ramdish execute command - "/init"; 
if (sys access((const char — user *) ramdisk execute command, 0) !- ө) { 
ramdish execute command - NULL; 
prepare. nanespace() j 


} 
init_post(); 
return 0; 

d kernel init » 


图 10-76 ”kernel_init0 函 数 流程 


kernel_init 继 续 初 始 化 ， 期 间 会 执行 smp_init0， 这 
一 步 对 多 核心 CPU 环 境 进行 初始 化 并 最 终 使 能 所 有 CPU 
核心 并 行 运行 ， 这 个 过 程 我 们 在 第 6 章 中 曾经 介绍 过 一 
些 ， 可 以 回顾 一 下 。 然 后 执行 了 do_basic_setup0 函 数 ， 
这 一 步 内 容 很 烦琐 ， 其 中 会 对 各 种 外 部 设备 、 总 线 等 进 
行 初始 化 ， 以 及 加 载 对 应 设备 驱动 ， 做 设备 枚 举 和 初始 
化 配置 等 等 ， 这 一 步 将 会 非常 慢 。 在 做 了 其 他 一 些 工作 
之 后 ， 最 终 执行 nit post 函 数 ， 如 图 10-77 所 示 。 


static noinline int init ро5%(уоіа) 
í async synchronize full(); 
free initmem(); 
mark rodata ro(); 
system state = SYSTEM RUNNING; 
numa default policy(); 
current-»signal-»flags |= SIGNAL UNKILLABLE; 
if (ramdish execute command) ( 
run init process(ramdisk execute command; 
primtk(KERN WARNING "Fail L 
ramdisk execute c 
if (execute command) ( 
run init process(execi 
printk(KERN WARNING " 


run init process 


run init process 


} « end init post » 
[10-77 ”init_post0 函 数 流程 
该 函数 最 终 调 用 run_init process 函 数 ， 


程序 ，init 程 序 运行 之 前 ， 内 核 初始 化 已 经 完毕 了 ， 文 
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件 系统 已 经 加 载 ， 可 以 访问 文件 ， 各 个 设备 驱动 也 都 
加 载 和 配置 成 功 ， 网 络 控制 器 、 存 储 控制 器 、USB 控 
制 器 都 已 经 可 用 〈 事 实 上 在 BIOS 运 行 阶段 这 些 资源 就 
已 经 可 用 ， 但 是 BIOS 中 内 置 的 驱动 或 者 从 硬件 Optional 
ROM 中 提取 并 加 载 的 驱动 只 是 最 原始 的 简 版 驱动 ，OS 
启动 时 会 加 载 新 的 驱动 程序 重新 初始 化 这 些 设备 ) 。 

Init 程 序 为 一 个 用 户 态 程序 ， 其 负责 内 核 启动 之 
后 的 外 围 初始 化 工作 ， 比 如 启动 一 些 自 启动 程序 ， 最 
后 启动 用 户 认证 程序 ， 接 受用 户 的 登录 ， 通 过 后 则 启 
动 shell 程 序 ， 也 就 是 命令 行 解释 器 ，shell 程 序 根据 用 
户 输入 的 命令 ， 再 去 启动 命令 对 应 的 其 他 程序 。Init 
程序 是 以 可 执行 文件 形式 存在 于 文件 系统 路 径 下 的 ， 
一 般 会 被 放 到 /sbin、/etc、/bin 下 面 ， 当 然 ， 可 以 通过 
增加 启动 参数 来 手动 指定 init 的 位 置 ， 由 于 该 程序 为 
用 户 态 程序 ， 甚 至 可 以 替换 为 修改 之 后 的 版 本 。 在 下 
面 的 代码 中 ，init_post 会 尝试 依次 从 4 个 地 方 来 寻找 
init 程 序 ， 找 到 了 就 运行 之 ， 运 行 之 后 就 不 会 再 返回 
了 。 如 果 4 个 地 方 都 没 找到 ， 那 么 系统 就 执行 panic 函 
数 进入 系统 崩溃 流程 。 

请 注意 ， 至 此 ， 依 然 是 在 进程 1， 也 就 是 kernel_ 
init 内 核 线程 中 运行 ， 运 行 在 内 核 态 。 现 在 ，run_init_ 
process 函 数 将 试图 彻底 改变 kernel_init 进 程 的 运行 代 
码 ， 或 者 说 执行 流 ， 改 为 从 init 可 执行 文件 中 的 入 口 
重新 进入 ， 将 直接 脱胎 换 骨 成 一 个 新 的 进程 一 一 init 
进程 。 如 下 面 的 代码 所 示 ， 其 会 调用 kernel_execve 函 
数 来 做 这 件 事 。 


static void run_init_process(const char *init_filename) 


{ argv_init[0] = init filename; kernel execve(init filename, 
argv init, envp init); ) 


int kernel execve(const char *filename, const char *const 
argv[], const char *const envp[]) 

{ long res; asm volatile ("int $0x80" : “=a” (_ res) : "0" ( 
NR ехесме), “b” (filename), “с” (argv), “d” (envp) : “memory 


return. res;] 


kernel execve 函 数 实际 上 封装 了 一 套 汇编 代码 ， 
也 就 是 int 80h， 这 句 汇编 代码 是 一 个 软 中 断代 码 。 其 
中 ，80h 表 示 这 是 一 个 特殊 的 软 中 断 ， 也 就 是 系统 调 
用 ， 其 一 个 重要 参数 为 ”NR_execve， 这 是 要 告诉 内 
核 ， 执 行 execve 这 个 系统 调用 ， 另 一 个 参数 flename 则 
ХНУ T Маш init process 一 路 传递 下 来 的 init 程 序 文件 
的 路 径 。 该 系统 调用 委托 内 核 在 当前 正在 执行 的 进程 
/线程 中 将 init 程 序 的 代码 加 载 进来 ， 从 init 程 序 入 口 函 
数 开 始 执行 ， 不 再 执行 原 有 的 kernel_init 函 数 下 游 的 
代码 ， 彻 底 改 头 换 面 ， 但 是 进程 仍然 是 进程 1， 内 核 
栈 的 位 置 也 不 变 。 所 以 ， 至 此 需要 理解 一 个 事情 ， 进 
程 /线程 只 不 过 是 代码 的 容器 和 壳 而 已 ， 壳 里 面 的 内 容 
是 可 以 通过 execve 函 数 来 随时 变更 的 。 一 个 过 也 可 生 
成 男 一 个 新 这， 调用 do_fork 即 可 。 
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这 里 有 个 疑惑 是 ，kemel execve 函 数 原本 就 运行 在 
内 核 态 ， 它 有 必要 执行 系统 调用 么 ? 前 文中 提 到 过 ， 
用 户 态 程序 权限 不 足 ， 所 以 才 通过 系统 调用 来 委托 内 
核 态 做 事情 ， 为 何 kernel execve 身 居 内 核 之 内 却 也 要 
走 这 套 流 程 ? 这 步 棋 是 很 巧妙 的 一 步 ， 因 为 系统 调用 
结束 后 会 最 终 执行 到 iret 指 令 返 回 用 户 态 ， 由 于 init 程 序 
原本 就 是 个 用 户 态 程序 ，kernel_init 线 程 的 最 终 目标 就 
是 把 init 推 举 到 用 户 态 去 执行 ， 不 要 留 在 内 核 态 ， 于 是 
kernel execve 在 内 核 态 强行 走 这 个 流程 将 init 程 序 扶 上 
马 。 如 果 跨 过 系统 调用 直接 走 内 核 后 门 ， 就 无 法 走 到 
iret 这 一 步 。 我 们 下 面 就 来 看 看 这 个 流程 的 机 制 。 

系统 调用 发 生 之 后 ，CPU 会 根据 中 断 向 量 表 找 到 
80h 号 入 口 的 代码 执行 ， 位 于 80h 号 的 代码 就 是 系统 调 
用 总 入 口 代码 ， 其 为 一 段 汇编 程序 system call) , 
该 程序 会 call 对 应 的 系统 调用 函数 〈 也 就 是 sys_execve 
ЖЖ) 执行 ， 然 后 是 do_execve -> search binary - 
handler -> load elf binary -> start_thread 函 数 的 接连 调 
用 。 我 们 在 之 前 章节 中 提 到 过 的 可 执行 文件 装载 器 
(Loader) ， 其 实 可 以 看 作 load_elf binary 函 数 ， 该 
函数 会 负责 分 析 elf 文 件 格式 ， 然 后 负责 装载 到 内 存 。 
最 终 start_thread 函 数 做 最 后 的 准备 之 后 ，execve 系 统 
调用 的 执行 就 结束 了 ， 原 路 一 直 返 回 到 系统 调用 总 入 
口 处 的 那 段 汇编 程序 中 ， 继 续 执行 syscall_exit 宏 (该 
宏 及 后 续 的 宏 见 图 10-67 上 方 ) ， 并 最 终 执行 到 iret 指 
令 ， 这 条 指令 会 导致 乾坤 大 挪移 的 时 空 扭转 ， 将 当前 
进程 从 内 核 态 改变 为 用 户 态 ， 然 后 在 用 户 态 开始 执行 
init 程 序 。start_thread 都 做 了 什么 从 而 导致 时 空 扭 转 ? 


ENTRY(system_call) 
RINGO_INT_FRAME 
pushl_cfi %eax 
SAVE_ALL 
GET_THREAD_INFO(%ebp) 
testl $_TIF_WORK_SYSCALL_ENTRY,TI_flags(%ebp) 


jnz syscall_trace_entry 


стр! $(nr_syscalls), %eax 

jae syscall_badsys 

syscall call: 

call *sys call table(36eax,4) // 调 用 sys_execve 
том! Феах,РТ EAX(96esp) 

syscall exit: 

LOCKDEP SYS EXIT 

DISABLE INTERRUPTS(CLBR ANY) 

TRACE IRQS OFF 

том ТІ flags(%ebp), %есх 

тези $ TIF ALLWORK МАК, %ecx 

jne syscall, exit work 

如 图 10-78 所 示 的 代码 ，start_ thread 函数 只 做 了 一 件 


事 ， 那 就 是 把 当前 进程 〈 进 程 1) 的 内 核 栈 (regs 结 构 体 
所 占据 的 位 置 ) 中 对 应 的 各 个 段 寄存 器 值 统统 改 为 用 户 


态 的 段 选择 子 (RPL=3) ， 然 后 将 计 寄 存 器 值 改 为 已 经 
被 载 入 内 存 的 init 程 序 代码 的 入 口 ，sp 改 为 用 户 态 栈 的 栈 
顶 。 然 后 就 返回 了 ， 一 直 返 回 到 上 述 系统 调用 总 入 口 汇 
编 代 码 中 ， 也 就 是 call *sys call table(%teax.4) 的 下 一 句 继 
续 执 行 ， 然 后 一 直 执 行 到 jne syscall exit work， 最 终 执 
行 到 restore all 中 的 ire 指 令 。 此 时 ， 内 核 栈 中 只 剩 下 了 用 
户 态 部 分 的 老 五 样 寄 存 器 ，CPU 自 动弹 栈 ， 首 先 弹 栈 eip 
Cinit 程 序 入 口 ) ， 当 弹 栈 cs 寄存 器 时 发 现 其 中 RPL=3， 
与 旧 cs 寄 存 器 中 的 CPL=0 不 同 ， 所 以 CPU 知道 这 是 要 切 
换 到 用 户 态 了 ， 所 以 继续 弹出 esp、efags 和 ss 寄存 器 ， 这 
样 ， 当 前 cs 寄存 器 中 的 CPL=3， 后 续 的 执行 就 彻底 位 于 
用 户 态 了 。iret 指 令 实 乃 神器 。 


void Start thread(struct pt regs *regs, 
unsigned long new ip, 
unsigned long new sp) 


t 
set user gs(regs, 0); 
= 0; 


regs->fs = 

regs->ds = _ USER DS; 
regs-»es = _ USER DS; 
regs-»ss = _ USER DS; 
regs-»cs - USER CS; 
regs-»ip - new ip; 
regs-»sp - new sp; 


free thread xstate(c urrent 25 


图 10-78 start_thread() 函 数 流程 


init 程 序 内 部 要 做 很 多 事情 ， 篇 幅 所 限 请 大 家 
自行 了 解 。 在 init 程 序 的 尾声 ， 其 会 向 各 个 操作 终端 
(包括 串口 、 显 示 器 等 ) 输出 登录 探寻 (Prompt) (8 
息 ， 提 示 用 户 输入 用 户 名 和 密码 。 系 统 可 能 存在 多 个 
终端 ， 比 如 可 能 有 多 个 串口 ， 内 核 初始 化 时 每 发 现 
一 个 终端 设备 就 会 向 /etc/inittab 文 件 中 对 应 位 置 加 入 
一 条 记录 (比如 T0:23:respawn:/sbin/getty -L ttyAMAO 
115200 vt100) ， 描 述 该 中 断 的 设备 号 、 速 率 ， 以 及 
用 户 从 该 终端 连接 后 需要 启动 哪个 进程 来 处 理 用 户 输 
入 的 用 户 名 密码 。init 程 序 运行 到 尾声 时 ， 会 读 取 该 文 
件 中 的 这 些 条 目 ， 针 对 每 一 个 条 目 ， 运 行 一 次 fork0 系 
统 调用 创建 一 个 新 进程 ， 并 接着 调用 execve0 系 统 调用 
加 载 对 应 条 目 中 给 出 的 文件 名 《比如 上 述 的 /sbin/getty) 
执行 ， 同 时 还 会 调用 signal0 函 数 来 向 系统 注册 一 个 用 
于 处 理 SIGCHLD 信 号 〈 我 们 将 在 10.2.2.9 节 中 介绍 信 
号 机 制 ) 的 函数 从 而 处 理子 进程 的 退出 ， 如 果子 进程 
退出 则 重新 fork0、execve0， 从 而 让 每 个 终端 都 有 一 
个 getty 进 程 在 监视 着 。 每 个 被 加 载 的 getty (get бу, 
tty 是 teletype 的 意思 ) 程序 会 调用 Open0 函 数 执行 系统 
调用 ， 打 开 各 自 对 应 的 终端 设备 ， 如 果 终 端 设备 显 
示 底 层 链 路 已 经 连通 ， 则 getty 程 序 向 终端 发 送 对 应 的 
Prompt 信 息 ， 比 如“ 某 Linux 版 本 Login: ”。 

实际 上 ，getty 程 序 会 从 /etc/issue 文 件 中 读 出 对 应 
的 Prompt 信 息 ， 并 不 是 写 死 的 ， 可 以 手工 变更 这 些 信 
息 ， 比 如 改 为 “The computer will explod if you press 
any key: ”。 如 图 10-79 所 示 为 一 个 定制 化 登录 提示 
信息 的 示意 。 


当 用 户 输入 用 户 名 回 车 之 后 ，getty 获 取 到 用 户 

名 ， 然 后 getty 的 代码 会 调用 execle() 函 数 (execle 和 

execve 函 数 行为 、 参 数 各 有 些 不 同 ， 但 是 本 质 是 一 样 

的 ， 大 家 可 以 自行 了 解 ) 去 加 载 /bin/login 这 个 可 执行 

文件 继续 执行 (可 以 在 /etc/gettytab 文 件 中 手工 指定 

getty 运 行 的 可 执行 程序 人 为 /bin/login) ，getty 会 
- 步 拿 到 的 用 户 名 作为 参数 传递 给 login 程 序 。 


Г, getty 进 程 并 没有 新 建 另 一 个 进程 然后 装 入 
login 程 序 ， 而 是 直接 利用 自己 身 处 的 进程 沉 子 ， 用 
login 程 序 的 真 身 替换 了 自己 。 

login 程 序 ， 顾 名 思 义 ， 其 负责 实际 的 用 户 名 密 
码 认 证 和 登录 之 后 的 准备 工作 。 上 一 步 getty 只 是 把 用 
户 名 传递 给 了 login 程 序 ， 在 Linux 下， 不 同 用户 可 能 
有 不 同 的 密码 验证 方式 和 规则 ，login 程 序 拿 到 用 户 
名 之 后 会 调用 getpwnam0 函 数 针对 当前 用 户 名 做 一 些 
基本 判断 ， 比 如 先 得 判断 有 没有 这 个 用 户 ， 以 及 其 
登录 规则 是 什么 ， 等 等 。 然 后 调用 getpass() 函 数 向 终 
端 上 输出 比如 “Password: ”信息 并 得 到 密码 ， 然 后 
调用 crypt0 函 数 ， 对 


行 Hash 运 算 ， 然 后 从 /etc 
shadow 文 件 中 比 对 该 用 户 保存 的 Hash 值 以 判断 是 


0. 
0. 
0. 
0. 
0. 
0. 
0. 
0. 
0 
0 
0.6 
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和 否 通过 认证 。 如 果 认 证 超过 三 次 都 不 通过 ， 则 login 程 
序 调 用 exit0 执 行 系统 调用 退出 当前 进程 。 

子 进程 退出 时 ， 内 核 会 产生 SIGCHLD 信 号 并 调 
用 当时 由 父 进 程 通过 signal() 向 内 核 注册 的 信号 处 理 
函数 来 处 理子 进程 退出 ， 所 以 init 进 程 会 重新 fork 和 
execve 一 个 getty 进 程 监视 该 终端 。 多 个 用 户 可 以 在 多 
个 终端 同时 登录 ， 每 个 终端 都 被 一 个 getty 进 程 监视 、 
服务 着 。 如 图 10-80 所 示 为 某 Linux 系 统 中 当前 运行 的 
进程 列表 ， 可 以 看 到 当前 运行 了 多 个 getty 进 程 ， 监 视 
着 不 同 的 终端 。 
如 果 通 过 了 认证 ， 则 login 程 序 会 为 该 用 户 准备 运 
行 环境 ， 包 括 将 当前 工作 目录 更 改 为 该 用 户 的 起 始 目 
Ж (chdir) ; 调用 chown 改 变 该 终端 的 所 有 权 ， 使 登 
录用 户 成 为 它 的 所 有 者 ; 将 对 该 终端 设备 的 访问 权限 
改变 成 用 户 读 和 写 ; 调用 setgid 及 initgroups 设 置 进 程 
的 组 ID; 用 login 所 得 到 的 所 有 信息 初始 化 环境 : 起 始 
目录 (HOME) 、 用 户 名 (USER 和 LOGNAME) ， 
以 及 系统 默认 路 径 (PATH) 。 
最 后 ，login 程 序 运 行 该 用 户 对 应 的 shell 程 序 〈 每 
个 用 户 可 以 指定 自己 不 同 的 shell 程 序 ，Linux 提 供 了 
多 种 不 同 展示 风格 和 命令 风格 的 shell 命 令 解释 器 可 
供 选择 ， 比 如 bash、k shell, c shell. z shelf, RU 
为 /bin/sh) : 。 从 此 ， 
login 程 序 变 身 为 shell 程 序 ， 在 当前 进程 内 继续 运行 。 
shell 程 序 的 基本 逻辑 就 是 不 断 循环 地 让 光标 闪烁 ， 不 断 
循环 地 获取 用 户 的 键盘 输入 命令 。 这 个 过 程 如 图 10-81 
所 示 。 

getty 进 程 变 身 为 login 进 程 ， 后 者 又 变 身 为 
shell 进 程 ， 它 们 其 实 都 在 同一 个 进程 中 运行 ， 只 不 
过 getty 先 入 住 ， 最 后 腾 出 给 login， 后 者 又 腾 出 给 
shell。 而 shell 进 程 在 执行 用 户 程序 时 ， 不 会 把 自己 

让 出 当前 进程 这 子 ， 而 是 先 fork 一 个 新 这 然后 用 

execve 装 入 用 户 程序 进去 ， Ej Hl PEUT ЕГ ЕЕ: Ж 
如 果 是 前 台 程 序 ， 则 shell 进 程 fork 出 用 户 程序 进程 后 
会 调用 waitpid0 阻 塞 ， 直 到 它 创 建 的 子 进程 〈 用 户 程 
HO 结束 后 继续 运行 ， 如 果 是 以 后 台 方 式 运行 〈 可 


арасһе2 - 
apache2 - 


in/getty -L ttyAMAO 115200 
pi [priv] 
: pi&pts/O 


: pi [priv] 


____ E 引 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


while (TRUE) ( /* repeat forever /*/ 
type prompt(); /* display prompt on the screen +/ 
read command(command, params); /* read input line from keyboard */ 


pid = fork( ); /* fork off a child process */ 
if (pid < 0) ( 
printf("Unable to fork0); /* error condition */ 
continue; /* repeat the loop */ 
} 
if (pid != 0) { 
майра (-1, &status, 0); /* parent waits for child */ 


} else { 
execve(command, params, 0); /* child does the work */ 


while (1) { 
char *сша = read command(); 
int child pid = fork (); 
if (child pid — 0) ( 
Manipulate STDIN/OUT/ERR file descriptors for pipes, 
redirection, etc. 
exec (cmd) ; 
panic("exec failed"); 
) else ( 
waitpid(child pid); 
) 
) 


图 10-81 shell 程 序 逻 辑 伪 流程 代码 示意 图 


以 在 命令 之 后 加 一 个 & 以 告知 shell 以 后 台 方式 运行 
该 程序 ， 比 如 ./tcpserv01&) ， 则 shell 进 程 fork 和 装 
载 用 户 程序 执行 后 ， 仍 然 返回 到 自己 后 续 的 代码 运 
行 ， 继 续 输出 闪烁 的 提示 符 等 待 用 户 输入 。shell 下 
输入 的 各 种 命令 其 实 都 对 应 了 进程 ， 比 如 一 些 Linux 
日 常 管理 常用 的 命令 mkdir、cp、rm 等 ， 它 们 每 一 个 
都 对 应 了 实 实在 在 的 可 执行 文件 ， 这 些 程序 是 Linux 
开发 者 开发 好 的 ， 或 者 说 自 带 的 程序 ， 它 们 可 能 位 
于 不 同 路 径 中 ， 比 如 /bin、/sbin。 用 户 可 以 明确 给 出 
任何 可 执行 文件 路 径 来 运行 对 应 程序 ， 比 如 ./my_app. 
sh，shell 程 序 便 会 fork()、execve() 装 载 对 应 程序 执 
行 。 图 10-82 给 出 了 从 kernel init 到 用 户 进程 运行 全 过 
程 示 意图 。 

init 进 程 的 父 进程 (进程 0〉 的 最 终归 宿 是 归隐 在 
内 核 态 里 颐养 天 年 ， 只 有 在 世界 安静 的 时 候 才 出 来 让 
CPU 降温 。Init 进 程 自己 的 归宿 呢 ? 它 除 了 不 断 监视 
退出 的 shell 进 程 〈 比 如 用 户 登 出 系统 ，shell 进 程 会 执 
行 exit 退 出 ) ， 重 新 fo 水 和 运行 getty 之 外 ， 还 需要 做 一 
件 事 ， 领 养 系 统 中 的 孤儿 进程 。 所 谓 孤 儿 进程 是 指 那 
些 父 进程 先 于 子 进程 退出 的 子 进程 。 在 Linux 中 ， 进 
程 是 有 家 谱 的 ， 一 个 子 进 程 退 出 之 后 ， 其 会 遗留 下 一 
些 数据 结构 ， 记 录 了 它 退出 时 的 状态 ， 比 如 对 应 的 返 
回 值 等 。 正 常 的 流程 是 父 进 程 调用 wait 或 者 waitpid 函 
数 来 从 内 核 数据 结构 中 获取 这 些 状态 ， 然 后 最 终 清理 
掉 子 进程 的 全 部 遗物 ， 而 如 果 父 进程 由 于 各 种 原因 退 
出 了 ， 则 它 的 子 进程 将 来 如 果 退 出 ， 那 么 遗物 将 无 人 
清理 ， 耗 费 内 存 。 所 以 Linux 系 统 被 设计 为 ， 凡 是 父 
进程 先 退出 的 ， 其 子 进程 将 被 强行 认 进程 1 为 父 ， 由 
init 进 程 负责 后 续 清理 。 

如 果 父 进程 尚未 退出 ， 子 进程 退出 了 ， 而 父 进 
程 尚未 调用 wait 或 者 waitpid 函 数 清 理 遗 物 ， 那 么 此 时 
的 子 进程 被 称 为 僵尸 进程 。 有 些 时 候 父 进程 由 于 各 种 
原因 没有 清理 其 子 进程 ， 导 致 系统 积累 了 大 量 遗 物 ， 
而 系统 可 运行 的 最 大 任务 数量 是 有 限制 的 ， 此 时 可 以 
强行 终止 该 父 进程 ， 让 这 些 伪 尸 进程 变 为 孤儿 ， 从 而 
被 init 进 程 领养 ， 后 者 再 将 这 些 僵尸 进程 清理 掉 。 如 
果 shell 程 序 使 用 后 台 的 方式 运行 了 某 个 任务 ， 那 么 这 
个 任务 结束 时 shell 程 序 是 不 知道 的 ， 此 时 如 果 不 加 处 


理 ， 那 么 所 有 shell 程 序 运 行 的 后 台子 进程 退出 时 都 会 
成 为 僵尸 进程 ， 解 决 这 个 问题 的 方法 是 shell 程 序 运行 
时 需要 使 用 signal() 函 数 向 系统 注册 一 个 信号 处 理 函 
数 ， 在 该 函数 中 执行 wait0 来 处 理 僵尸 进程 ， 子 进程 
退出 后 内 核 会 产生 SIGCHLD 信 号 并 主动 调用 该 处 理 
函数 ， 处 理 完 后 返回 shell 继 续 执行 。 

花 开 两 休 各 表 一 枝 。 我 们 再 来 看 看 同样 是 由 进 
程 0 创建 出 来 的 进程 2， 也 就 是 kthreadd 进 程 的 演化 
情况 。kthreadd 进 程 与 kernel_init 进 程 是 通过 同样 的 
方式 被 进程 0 通过 kernel_thread() 函 数 创建 出 来 的 ， 
流程 也 是 一 样 的 ， 一 个 最 大 的 区 别 在 于 ，kthreadd 
一 直 运 行 在 内 核 态 ， 并 没有 把 自己 推举 到 用 户 态 运 
行 。 我 们 现在 假设 kthreadd 线 程 已 经 运行 了 起 来 。 
有 一 点 要 深刻 理解 的 是 ， 进 程 0/1/2 这 三 个 OS 早期 
的 元 老 进 程 ， 它 们 是 各 自 独立 的 ， 运 行 的 时 机 完全 
不 固定 ， 没 有 先后 顺序 ， 谁 都 可 以 在 任何 时 候 被 调 
度 运行 。 

如 果 说 init 进 程 主 外 ， 那 么 kthreadd 进 程 主 内 ， 
它 俩 是 进程 0 的 左 膀 右 臂 。kthreadd 的 全 称 是 Kernel 
Thread Daemon 〈 内 核 线程 守护 者 ) ， 其 作用 是 专门 
负责 创建 其 他 内 核 线程 ， 其 在 后 台 持续 运行 ， 就 像 一 
个 守护 者 一 样 。 操 作 系 统 内 核 程 序 ， 可 以 被 两 种 方式 
来 触发 ， 一 种 是 外 部 中 断 ， 比 如 时 钟 中 断 、 系 统 调用 
软 中 断 、 异 常 中 断 等 ， 此 时 CPU 强 行 跳 转 到 内 核 代码 
执行 ， 从 而 进入 内 核 ， 另 一 种 则 是 依靠 内 核 线程 的 方 
式 ， 内 核 初始 化 一 些 运行 在 内 核 态 的 线程 ， 将 这 些 线 
程 的 task_struct 指 针 放 入 运行 队列 ， 与 用 户 态 线程 一 
起 共同 争 抢 CPU 执行 。 然 而 ， 有 比较 简单 些 的 操作 系 
统 完 全 没有 内 核 线程 ， 其 只 能 在 发 生 中 断 时 才能 得 到 
运行 机 会 ， 它 会 借 机 把 一 切 该 处 理 的 东西 尽 可 能 多 地 
处 理 完 ， 然 后 中 断 返 回 。Linux 和 Windows 都 有 大 量 
的 内 核 线程 存在 。 这 些 线程 平时 负责 一 些 内 核 事 务 处 
理 ， 比 如 负责 把 内 存 中 不 常用 的 页 面 swap 到 硬盘 的 
swapd (swap daemon) 内 核 线 程 ， 负责 把 内 存 中 缓存 
的 脏 数 据 定期 写 入 硬盘 的 fushd (flush daemon) 内 核 
线程 ， 等 等 。 不 同 版 本 的 Linux 区 别 也 很 大 ， 或 有 或 
无 ， 做 同一 件 事情 的 内 核 线程 的 名 称 在 各 个 版 本 可 能 
也 各 不 相同 。 
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struct task struct *kthread_create_on_node(int (*threadfn)(void *data), 


4 


任何 内 核 欲 创 建新 内 核 线 程 的 内 核 代码 ， 首 先 
调用 kthrad_run()， 这 是 一 个 宏 ， 其 调用 了 另 一 个 宏 


kthread_create()， 实 际 上 是 调用 了 kthread_create_on_ 


nodeO0， 内 核 代 码 将 新 线程 的 入 口 函数 等 信息 作为 参 
数 传递 给 后 者 。 后 者 调用 list_add_tail 函 数 将 拿 到 的 信 
息 放 入 到 一 个 专门 用 于 内 核 线程 创建 的 队列 中 排队 等 
待 被 创建 。 然 后 ， 它 继续 调用 wake_up_process 函 数 ， 
来 唤醒 kthreadd 线 程 。 

进程 2 (kthreadd) 被 进程 0 创建 和 运行 之 后 ， 先 
调用 set_current_state 函 数 将 自己 的 状态 改 为 TASK_ 
INTERRUPTIBLE， 这 个 状态 用 于 告诉 内 核 的 调度 程 
JF. (schedule0 函 数 ) 下 次 不 要 再 调度 我 上 CPU 运行 ， 
我 没事 可 干 的 。 它 先 做 出 这 个 声明 ， 然 后 调用 list_ 
empty 函 数 去 查看 内 核 线程 创建 队列 是 否 为 空 ， 如 果 
是 空 的 ， 则 直接 调用 schedule() 函 数 通 知 内 核 换 其 他 
线程 来 运行 。schedule0 〇 函数 运行 之 后 一 看 kthreadd 的 
状态 为 自己 将 自己 设置 为 TASK INTERRUPTIBLE, 
则 不 调度 它 ， 转 为 调度 别人 【那些 状态 为 TASK _ 
RUNNING 的 线程 》， 从 此 ，kthreadd 就 睡 起 了 大 觉 。 

再 说 回来 ，wake_up_process 函 数 通 过 将 kthreadd 
线程 的 状态 强行 改 为 TASK_RUNNING (因为 该 函 
数 也 处 于 内 核 态 ， 它 有 权限 做 任何 事情 ) ， 这 样 ， 


int kthreadd(voia *unused) 
{ 


struct task struct *tsk = current; 
set task comm(tsk, "kthreadd"); 
ignore: signals(tsk); 
set cpus allowed ptr(tsk, cpu all mask); 
set mems allowed(node states[N HIGH MEMORY]); 
current-»flags |- PF NOFREEZE | PF FREEZER NOSIG; 
for (;;) ( 
set current state(TASK INTERRUPTIBLE); 
if (list empty(&kthread create list)) 
schedule(); 
set current state(TASK RUNNING); 
spin lock(&kthread create lock); 
while (!list empty(&kthread create list)) { } 
struct kthread create info *create; 
create = list entry(kthread create list.next, 
struct kthread create info, list); 
list del init(&create-»list); 
spin unlock(&kthread create lock); 
create kthread(create); 
spin lock(&kthread create lock); 


} 
Spin unlock(&kthread create lock); 


return 0; 
} < end kthreadd » 
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下 次 各 种 事件 导致 shedule0 运 行 的 时 候 ， 就 有 机 会 
运行 kthreadd 线 程 ， 它 醒 了 之 后 ， 继 续 从 它 的 断 点 ， 
也 就 是 它 代码 中 的 schedule() 的 下 一 句 ( 它 睡 之 前 
就 是 调用 了 schedule() 的 ) ， 再 次 去 检查 队列 是 否 为 
空 ， 此 时 不 为 空 ， 则 kthreadd 会 从 队列 头 部 依次 读 出 
每 个 创建 请 求 ， 分 别 调用 create_kthread 函 数 创建 对 应 
数量 的 内 核 线程 ，create_kthread 函 数 内 部 其 实 也 调用 
Т Кегпе1 thread 函数， 这 个 函数 的 下 游 动作 在 前 文中 
介绍 过 。 这 就 是 kthreadd 的 作用 ， 不 断 地 扫描 创建 队 
列 ， 然 后 创建 内 核 线程 ， 然 后 将 新 线程 加 入 运行 队列 
与 所 有 任务 一 起 参与 调度 。 下 面 我 们 看 一 下 代码 ， 如 
图 10-84 所 示 。 

如 图 10-85 所 示 为 欲 创建 内 核 线程 时 调用 kthread_ 
run 和 kthread_create 宏 时 最 终 调用 的 kthread_create_on_ 
node 代 码 。 

如 图 10-86 左 侧 所 示 ， 可 以 明确 地 看 到 PID=1 的 
init 进 程 ， 以 及 PID=2 的 kthreadd。 可 以 看 到 进程 1 
和 2 的 PPID (Parent Process ID) 都 是 9， 它 俩 都 是 
进程 0 的 子 进程 。 位 于 中 括号 中 的 线程 都 是 内 核 线 
程 ，init 是 用 户 态 进程 。 也 可 以 看 到 所 有 内 核 态 线程 
的 PPID 都 为 2， 因 为 它们 都 是 由 kthreadd 进 程 创建 出 
来 的 。 


static void Create_thread(struct virtqueue *vq) 
4 


char *stack = malloc(32768); 
unsigned long args[] - ( LHREQ EVENTFD, 
|-»config.pfn*getpagesize(), е ); 
vq-»eventfd = eventfd(0, 0); 
if (vq-»eventfd « 0) 
err(1, "Creating eventfd"); 
args[2] = vq-»eventfd; 
if (write(Lguest fd, &args, sizeof(args)) l= ө) 
err(1, 
vq-»thread = cLome(do thread, stack + 32768, CLONE VM | SIGCHLD, ма); 
if (мя. »thread == (pid t)- D 


rr(1, 
din Seventfd); 


图 10-84 kthreadd()Ul create thread(O) 函 数 代码 


void *data, int node, const char namefmt[], 


struct kthread create info create; 
create.threadfn = threadfn; 

create.data = data; 

create.node = node; 

init completion(&create.done); 

spin lock(&kthread create lock); 

ist add tail(&create.list, &kthread create list); 
spin unlock(&kthread create lock); 

wake. up, process(kthreadd task); 

wait for completion(&Rcreate.done); 


if (!IS ERR(create.result)) ( 
static const struct sched param param = ( .sched priority = 9 ); 
va list args; 
va start(args, namefmt); 
vsnprintf(create.result-»comm, sizeof(create.result-»comm), 
namefmt, args); 
va end(args); 
sched setscheduler nocheck(create.result, SCHED NORMAL, Bparam); 
set cpus allowed ptr(create.result, cpu all mask); 
£ 
return create.result; 
} « end kthread creste on node » 


10-85 kthread create on node0 代 码 


后 的 工作 者 OT 
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PID PPID PRI 


图 10-86 Linux 下 的 进程 列表 示意 图 


图 10-87 


图 10-86 右 侧 所 示 为 一 个 高 负载 的 服务 器 上 运行 
的 大 量 的 用 户 进程 /线程 。 可 以 看 到 图 中 列 出 的 部 分 都 
是 由 PPID 为 2980 的 进程 创建 的 子 进程 或 者 线程 。 如 图 
10-87 所 示 为 进程 01/2 的 演化 过 程 示意 图 。 


10.2.2.5 ”在 用 户 态 创建 和 运行 任务 


上 一 节 中 介绍 了 进程 0 创建 进程 1 和 2 的 过 程 ， 其 
都 是 在 内 核 态 完成 创建 的 ， 调 用 的 都 直接 是 do_fork， 
这 个 函数 的 代码 位 于 内 核 数据 区 ， 用 户 态 进 程 是 无 法 
直接 调用 的 。 用 户 态 进程 如 果 想 创建 另 一 个 进程 ， 载 
入 另 一 个 可 执行 文件 运行 ， 就 必须 执行 系统 调用 委托 
内 核 做 这 件 事 。 这 个 场景 经 常 发 生 ， 比 如 在 Linux F 
输入 了 某 个 shell 命 令 运行 ，init 进 程 是 用 户 态 进 程 ， 其 
变 身 为 shell 之 后 依然 为 用 户 态 进 程 ， 执 行 命令 的 过 程 
其 实 就 是 shelj 进 程 创建 一 个 新 进程 并 塞 入 elf 可 执行 文 
件 运行 的 过 程 。 


内 核 进程 0/1/2 的 演化 过 程 


Linux 系 统 提供 了 三 个 系统 调用 来 供用 户 态 程序 
创建 新 进程 ， 分 别 为 fork、clone 和 execve， 分 别 对 应 
了 sys_fork0、sys_clone0 和 sys_execve() 三 个 内 核 态 函 
数 ， 函 数 的 入 口 被 写 入 到 一 张 位 于 内 核 态 的 系统 调用 
表 中 ， 这 个 表 存 储 了 Linux 系 统 提供 的 三 百 多 个 系统 
调用 服务 函数 的 入 口 地 址 。 在 用 户 态 ， 由 标准 glibc 运 
行 库 封装 出 fork0、clone0， 以 及 execve0 函 数 (exec 系 
列 函 数 有 多 个 变种 ) ， 这 些 函 数 底层 其 实 都 封装 了 汇 
编 语言 的 int 80h 系 统 调用 指令 ， 对 应 的 参数 会 被 放 到 
eax 寄 存 器 中 ， 该 指令 的 执行 将 会 使 CPU 跳 转 到 中 断 向 
量 80h 处 的 入 口 代码 执行 ， 该 入 口 代码 如 图 10-82 中 间 
的 方 框 内 所 示 ， 在 该 代码 中 ， 有 一 句 call eax 中 对 应 的 
系统 调用 号 对 应 的 入 口 地 址 的 指令 ， 从 而 跳 转 到 系统 
调用 表 中 的 入 口 函 数 执行 。 在 用 户 态 创建 并 运行 新 任 
务 的 流程 基本 上 是 : 先 fork0 创 建 一 个 新 进程 壳 子 ， 再 
execve0 向 壳 子 中 塞 入 要 执行 的 可 执行 文件 ， 就 好 了 。 


libe 中 的 forkO 函 数 调用 流程 为 : fork() -> int 80h 
-> sys fork() -> do fork() -> сору_ргосезз() -> wake ир_ 
Dew_process0， 如 图 10-88 所 示 。 
libc fork() 
system call (arch/i386/kernel/entry.S) 
sys fork() (arch/i386/kernel/process.c) 
do fork() (kernel/fork.c) 
сору. process() (kernel/fork.c) 
р = dup task struct(current) // shallow copy 
copy. * // copy point-to structures 
copy. thread () // copy stack, regs, and eip 
wake, up. new, task() // set child runnable 


图 10-88 ”fork0 的 调用 链 


fork0 函 数 没有 参数 ， 但 是 其 系统 调用 之 后 的 入 口 
函数 sys_fork 是 有 默认 参数 的 ， 见 下 面 的 代码 。regs 结 
构 体 指 的 就 是 当前 进程 的 内 核 栈 的 被 保存 的 寄存 器 部 
分 ， 这 在 上 文中 介绍 过 。 


int sys fork(struct pt_regs *regs) { return do fork(SIGCHLD, 
regs-»sp, regs, 0, NULL, NULL); } 


其 接着 调用 do_fork()， 但 是 却 并 没有 明确 给 出 
CLONE_VM 这 个 参数 ， 上 文中 提 到 过 ， 如 果 给 出 了 
该 参数 ， 则 会 创建 线程 ， 如 果 不 给 出 ， 则 创建 的 是 一 
个 拥有 独立 地 址 空间 的 进程 。 该 参数 会 传递 给 copy_ 
process 并 一 路 传递 给 下 游 的 copy_mm 函 数 (copy_ 


process() -> copy thread -> copy mm) 。copy_mm0 中 
有 一 处 代码 如 下 。 


if (clone, flags & CLONE VM) ( atomic_inc(&oldmm->mm_ 


users); mm = oldmm; goto good mm; ) retval = -ENOMEM; mm = 
dup. mm(tsk); if (Imm) goto fail nomem; 


可 以 明显 看 到 ， 它 先 判断 clone_flgas 参 数字 段 中 
的 CLONE_VM 位 是 否 为 1， 只 要 将 这 两 者 相 与 〈 与 操 
作 的 C 语 言 运算 符 为 “&”) ， 如 果 结 果 为 1， 表 明 给 
出 了 CLONE_VM 参 数 ， 则 其 直接 将 父 进程 的 mm 结构 
体 指针 oldmm 的 值 复制 给 新 的 mm 结构 体 指针 ， 不 用 
做 实际 复制 ， 此 时 父子 进程 共享 同一 个 地 址 空间 ， 
子 进 程 实 质 上 是 一 个 线程 。 而 如 果 判 断 结 果 为 0， 表 
示 没 有 给 出 CLONE_VM 人 参数 ， 则 调用 dup_mm0O 对 父 
进程 的 mm 结构 体 以 及 其 他 相关 数据 结构 做 实际 的 复 
制 ， 生 成 一 个 全 新 进程 。 所 以 ， 从 fork(O 系 统 调用 进 
去 之 后 只 会 创建 一 个 新 进程 。 

所 有 的 clone_flags 参 数 的 值 都 是 被 精确 设计 好 的 
宏 ， 见 下 。CLONE_VM 对 应 的 二 进 制 值 为 


#define CSIGNAL Ox000000ff 
/* signal mask to be sent at exit */ 
#define CLONE VM 0х00000100 


/* set if VM shared between processes */ 


$8108 ЕЛЕ FARE Ра ЕНЕ 


#define CLONE FS 0x00000200 
/* set if fs info shared between processes */ 
#define CLONE FILES 0x00000400 


/* set if open files shared between processes */ 
#define CLONE SIGHAND 0x00000800 

/* set if signal handlers and blocked signals shared */ 
#define CLONE PTRACE 0x00002000 

/* set И we want to let tracing continue on the child too */ 
#define CLONE VFORK 0x00004000 

|" set if the parent wants the child to wake it up on mm release */ 
#define CLONE PARENT 0x00008000 

/* set if we want to have the same parent as the cloner */ 


#define CLONE THREAD 0x00010000 
/* Same thread group? */ 

#дейпе CLONE NEWNS 0x00020000 
/* New namespace group? */ 

#define CLONE SYSVSEM 0x00040000 
|" share system V SEM UNDO semantics */ 

#дейпе CLONE SETTLS 0х00080000 
/* create a new TLS for the child */ 

#define CLONE. PARENT. SETTID 0x00100000 
/* set the TID in the parent */ 

#define CLONE CHILD CLEARTID 0x00200000 
/* clear the TID in the child */ 

#define CLONE DETACHED 0x00400000 
/* Unused, ignored */ 

#define CLONE UNTRACED 0х00800000 


/* set if the tracing process can't force CLONE PTRACE on this 
clone*/ 


#дейпе CLONE CHILD SETTID 0x01000000 
/* set the TID in the child */ 

#define CLONE NEWUTS 0x04000000 
/* New utsname group? */ 

#define CLONE NEWIPC 0x08000000 
/* New ipcs */ 

#дећпе CLONE NEWUSER 0х10000000 
/* New user namespace “/ 

#дећпе CLONE NEWPID 0x20000000 
/* New pid namespace */ 

#дећпе CLONE NEWNET 0x40000000 
/* New network namespace */ 

#дећпе CLONE IO 0х80000000 


/* Clone io context */ 


而 反观 前 文中 的 kernel_thread() 函 数 ， 其 也 调 
用 了 do_fork() 函 数 ， 但 是 它 调用 时 却 明确 给 出 了 
CLONE_VM 参 数 ， 见 下 面 的 代码 ， 不 管 上 游 调用 
kernel thread 时 给 出 的 flags 参 数 中 都 使 能 了 上 述 参 
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数 二 进 制 值 中 哪些 1，kernel thread 调用 do_fork 时 再 
添 把 火 ， 保 证 把 CLONE_VM 也 掺 进去 ， 所 以 它 把 
CLONE_VM 值 或 到 flags 中 调和 进去 ， 最 终 这 个 参数 
会 传递 给 copy_mm()， 所 以 其 创建 的 是 线程 而 不 是 
进程 。 

return do, fork(flags | CLONE VM | CLONE_UNTRACED, 0, 
&regs, 0, NULL, NULL); 


到 这 里 大 家 可 能 有 个 疑惑 fork() 况 然 没有 参 
数 ? 那么 如 何 指定 新 进程 需要 运行 的 代码 入 口 呢 ? 你 
可 能 还 隐约 记得 kernel _ thread 函数 是 如 何 把 新 进程 的 
目标 函数 入 口传 递 给 下 游 的 do_fork0 的 ， 那 就 是 它 会 
明确 给 出 一 个 regs 结 构 体 并 向 其 中 埋 入 对 应 的 function 
(fn) 指针 ， 然 后 在 下 游 的 copy_thread() 中 有 一 句 
*childregs=*regs， 从 而 将 这 个 指针 构造 到 新 进程 的 内 
核 栈 底部 的 childregs 寄 存 器 区 中 ，copy _thread0 还 有 一 
句 p->thread.ip = (unsigned long) ret from fork， 从 而 新 
进程 运行 时 会 被 switch_ to 切换 到 运行 ret_from_fork 汇 
编 指 令 ， 后 者 执行 到 restor_all 和 iret 会 触发 弹 栈 ， 最 终 
中 招 ， 从 之 前 埋 入 的 血 指针 处 执行 ， 最 终 执行 了 目标 
进程 的 用 户 态 代码 。 

而 从 系统 调用 forkO 进 入 时 ，sys_fork0O 函 数 中 会 
使 用 默认 参数 ， 也 就 是 当前 进程 〈 父 进程 ) 的 regs 结 
构 体 ， 将 它 不 加 修改 地 向 下 传递 ， 最 终 会 导致 新 进 
程 的 childregs 结 构 体 的 内 容 为 父 进程 的 副本 ， 那 也 就 
意味 着 ， 新 进程 执行 时 ， 依 然 会 执行 父 进程 的 断 点 
EIP， 相 当 于 有 两 个 相同 进程 在 执行 相同 的 代码 ， 这 
样 做 显然 不 是 目的 ， 如 何 让 子 进程 运行 它 自身 的 代 
码 ? Linux 设 计 者 用 了 一 个 巧妙 方案 ， 那 就 是 在 断 点 
EIP 处 设置 一 条 分 支 指令 ， 也 就 是 C 语 言 的 if 语 句 ， 来 
判断 当前 进程 到 底 是 父 进程 还 是 新 建 的 子 进程 ， 然 后 
调用 不 同 函 数 ， 从 而 各 自分 道 扬 镶 。 所 以 ， 这 里 的 关 
键 问题 就 成 了 :， 如何 判 断 当前 进程 是 父 进程 还 是 子 
进程 ? 

下 面 还 是 看 图 10-89 来 梳理 这 个 流程 。 

СТ) 父 进 程 调用 fork0， 底 层 产生 int 80h 系 统 调 
用 中 断 ， 并 将 要 调用 的 系统 服务 〈sys_fork 服 务 ) 的 
号 码 放 入 EAX 寄存 器 。int 80h 指 令 导 致 CPU 跳 转 到 中 
断 向 量 80h 号 执行 的 汇编 程序 。int 指 令 同 时 还 会 触发 
CPU 将 当前 父 进程 用 户 态 的 老 五 样 寄 存 器 压 入 当前 进 
程 的 内 核 栈 (CPU 会 自己 从 TSS 表 中 的 ESP0 字 段 获取 
到 当前 进程 的 内 核 栈 指针 ) 。 

(2) 该 汇编 会 执行 SAVE_ALL 宏 ， 将 图 示 的 一 
堆 寄 存 器 值 压 入 内 核 栈 。 

(3) 根据 EAX 中 的 值 ， 跳 转 到 系统 调用 表 对 应 
该 值 的 入 口 处 执行 ， 也 就 是 执行 了 sys_fork0 函 数 。 

(4) sys_fork 函 数 一 直 执行 到 了 copy_process() 


函数 处 ， 该 函数 调用 copy_thread0 〇 函数 将 父 进程 内 核 
栈 底部 的 寄存 器 保存 区 整体 复制 到 子 进程 的 对 应 区 域 
C*childregs-*regs) 。 

(5) 父 进程 将 为 子 进程 分 配 的 PID 写 入 到 EAX 寄 
存 器 中 ， 这 个 PID 会 被 用 于 后 续 代 码 区 分 各 自 到 底 是 
父 还 是 子 。 

(6) copy thread() 函 数 把 *regs 复 制 到 *childregs 
之 后 ， 会 把 子 进程 内 核 栈 底部 的 EAX 值 改 为 0， 也 就 
是 执行 childregs->ax = 0 代码 。 这 个 0， 就 是 子 进 程 后 
续 运行 时 用 于 知道 自己 身份 的 关键 点 。 

(7) 父 进程 还 会 将 自己 的 task_struct 结 构 体 复制 
到 子 进程 的 task_struct， 然 后 更 改 后 者 的 ip 指 针 为 内 核 
中 的 ret_from fork0 的 入 口 。 这 一 步 会 导致 子 进程 后 
续 执 行 时 先 执 行 ret_from_fork 函 数 。 

(8) 到 这 一 步 ， 子 进程 的 各 项 数据 结构 已 经 被 
构造 完毕 ， 父 进程 继续 调用 wake_up_new_task() 函 
数 ， 将 子 进程 的 task_struct 指 针 以 及 对 应 的 信息 写 入 
到 任务 队列 中 。 每 当 内 核 的 schedule0 函 数 运 行 时 〔 比 
如 外 部 /内 部 中 断后 、 进 程 主动 调用 等 ) ， 就 会 从 这 
个 队列 中 根据 策略 选择 合适 的 进程 调度 到 CPU 上 执 
行 ，schedule() 函 数 的 底层 会 调用 context_switch() -> 
switch_to 宏 来 执行 任务 切换 ， 这 个 过 程 我 们 前 文中 已 
经 介绍 过 了 。 该 过 程 的 详细 介绍 可 回顾 图 10-63， 以 
及 图 10-83 右 上 角 的 图 示 。 

(9) 从 此 ， 父 子 俩 开始 各 自 运行 。 父 进程 调用 
完 wake_up_new_task() 函 数 后 还 需要 做 一 些 杂事 ， 然 
后 逐 层 返回 ， 一 直 返 回 到 系统 调用 总 入 口 处 call 指 令 
的 下 一 条 指令 开始 继续 执行 。 与 此 同时 ， 子 进程 也 可 
能 已 经 在 运行 了 ， 它 会 从 ret_from_fork() 处 运行 ， 一 
直 运 行 到 restor_all。 

(10) 这 一 步 中 ， 父 进程 把 一 直 待 在 EAX 寄存 
器 中 的 子 进 程 PID 值 保存 到 自己 内 核 栈 底部 的 寄存 器 
保存 区 中 的 EAX 条 目 中 ， 就 是 利用 这 个 值 ， 父 进程 
才 知 道 自 己 是 父 ， 生 成 了 对 应 PID 的 子 。 再 来 看 看 子 
进程 在 做 什么 ， 子 进程 的 restore_all 宏 会 将 子 进程 内 
核 栈 中 的 对 应 寄存 器 弹 栈 ， 弹 栈 之 后 ，EAX 中 的 值 
为 0， 就 是 利用 这 个 值 ， 子 进程 将 会 知道 自己 是 被 创 
建 的 新 进程 。 

(11) 在 这 一 步 中 ， 父 进程 也 执行 到 了 restor_all 
宏 ， 弹 栈 对 应 寄存 器 ， 弹 栈 后 ，EAX= 子 进程 PID。 与 
此 同时 ， 子 进程 执行 到 了 iret 指 令 ， 继 续 深度 弹 栈 ， 
将 内 核 栈 弹 空 ， 最 终 弹 出 了 子 进程 用 户 态 的 老 五 样 寄 
存 器 ， 终 于 从 地 底下 来 到 了 地 表 ， 然 后 子 进程 从 断 点 
EIP 开 始 继续 执行 。 

(12) 在 这 一 步 中 ， 父 进程 也 运行 到 了 iret 指 
令 ， 最 终 弹 出 父 进程 内 核 栈 底部 的 老 五 样 ， 最 终 从 断 
点 EIP 处 开始 执行 。 
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提示 > 

子 进 程 为 何 会 被 运行 ? 或 者 说 是 被 谁 运行 起 来 
的 ? 答案 就 是 schedule0 函 数 ， 因 为 别 的 进程 不 想 运 
行 了 ,或 者 外 部 中 断 强行 运行 到 了 schedule(), 后 者 
选择 了 这 个 新 创建 的 子 进程 来 运行 。schedule0 内 部 
会 调用 到 switch to， 其 会 从 目标 任务 的 task_struct -> 
thread.ip 中 提取 目标 入 口 载 入 EIP 寄 存 器 执行 ， 而 新 
建 的 子 进程 的 task_struct -> thread ip 会 被 提前 设置 为 
ret from fork 入 口 ， 这 段 汇编 程序 算是 起 到 了 将 新 
进程 扶 上 马 的 作用 ， 第 一 次 运行 时 ， 用 restore АЖ 
和 iret 指 令 ， 触 发 CPU 将 内 核 栈 中 构造 好 的 寄存 器 一 
股 脑 儿 导 回 CPU， 此 时 ， 这 个 新 进程 才 真 正 地 从 它 
的 原生 目标 函数 入 口 (regsip, n Ж1шеайір) + 
始 运行 ， 如 图 10-90 所 示 。 


interrupt or system сай! 


save state into PCB, 


reload state from РСВ; 


вә interrupt ог system сай 


save state into PCB, 


910-90 进程 切换 示意 图 


此 时 ， 父 子 二 人 都 会 执行 到 同一 行 代码 处 。 这 里 
一 定 要 注意 ， 父 进程 的 代码 按理 说 应 该 被 复制 到 子 进 
程 的 地 址 空间 中 ， 但 是 考虑 到 经 济 性 ， 全 部 复制 没 必 
要 ，Linux 的 做 法 是 让 子 进程 的 页 表 条 目 指向 与 父 进程 
相同 的 物理 页 面 ， 仅 当 任何 一 方 尝试 写 入 页 面 时 ， 才 
复制 一 份 给 要 写 入 的 那 一 方 ， 从 而 产生 各 自 的 副本 ， 
这 个 CoW 机 制 前 文中 也 介绍 过 。 再 说 回来 ，fork0 函 数 
返回 之 后 ， 父 子 进程 会 执行 相同 的 代码 ， 位 于 fork0 之 
后 的 代码 应 该 怎么 设计 ， 完 全 取决 于 父子 进程 到 底 想 
要 干什么 。 一 般 来 讲 ，fork0 返 回 后 的 下 一 名 代码 都 是 
用 if0 语 句 去 判断 返回 值 PID 到 底 是 不 是 9， 来 决定 后 续 
走向 。 比 如 图 10-89 所 示 的 过 程 ， 父 进程 fork0 之 后 会 执 
行 do_father0， 而 子 进程 则 执行 do_child0。 这 就 是 所 谓 
“fork0 函 数 调用 一 次 返回 两 次 ”的 普遍 说 法 ， 其 实 更 
准确 来 说 应 该 是 “fork() 函 数 调用 一 次 ， 分 别 在 父 进 
程 和 复制 出 来 的 子 进程 各 自 的 内 核 栈 中 注入 了 不 同 的 
返回 值 ， 两 个 进程 各 自 返 回 不 同 的 值 ”。 前 一 种 说 法 
给 人 以 很 大 误导 ， 听 上 去 好 像 “fork0 返 回 之 后 又 返 
可 去 循环 运行 了 一 次 再 次 返回 ”。 

至 此 我 们 就 回答 了 之 前 的 问题 ，forkO 只 管 创建 
一 个 子 进程 壳 子 ， 却 根本 不 管子 进程 该 执行 什么 新 代 
码 。 于 是 ， 可 以 直接 在 父 进 程 中 预先 写 好 子 进程 要 执 


行 的 代码 ， 用 if 分 支 去 分 叉 。 或 者 ， 直 接 利 用 可 执行 
文件 中 包装 好 的 代码 ， 让 子 进程 分 支 执行 execve() 载 
入 可 执行 文件 运行 。 总 之 ，forkO 生 了 儿子 之 后 ， 父 
进程 必须 给 子 进程 安排 好 它 刚 一 出 生 之 后 要 运行 的 
事情 ， 要 么 把 代码 直接 显 式 地 写 到 这 个 if 分 支 之 后 的 
下 游 函数 中 ， 要 么 干脆 给 儿子 一 份 ELF 格 式 的 流程 图 
(可 执行 文件 ) : JLT, RARE, MERWE 
具 execve0 拿 好 ， 上 路 吧 ， 各 自 走 好 ! ” 

子 进程 空间 里 的 位 于 断 点 EIP 之 前 的 代码 虽然 会 一 
直 存 在 在 那里 ， 但 是 子 进程 可 能 永远 也 不 会 跳 回 到 这 
里 去 执行 了 (所 以 图 中 将 这 部 分 代码 着 色 为 灰色 )。 
如 果子 进程 决定 执行 execve0 走 入 全 新 的 世界 ， 那 么 之 
前 父 进程 遗留 的 代码 将 会 被 覆盖 潭 灭 掉 。execve0 也 是 
一 个 系统 调用 ， 篇 幅 所 限 请 大 家 自行 了 解 。 

如 图 10-91 所 示 ， 父 进程 fork 了 子 进程 之 后 ， 自 
己 可 以 选择 执行 其 他 代码 ， 也 可 以 选择 执行 wait()， 
该 函数 是 一 个 系统 调用 ， 它 会 阻塞 父 进 程 不 再 继续 执 
行 ， 一 直到 刚 创建 完 的 子 进程 退出 后 ， 将 子 进程 返回 
值 传递 给 父 进 程 继 续 执行 。 如 果 父 进程 选择 继续 做 其 
他 事情 ， 那 么 父 进程 可 以 随时 调用 wait() 来 获取 子 进 
FE (任何 一 个 它 的 子 进程 》 退 出 后 的 返回 值 ， 父 进程 
如 果 创 建 了 多 个 子 进程 ， 那 么 可 以 调用 waitpid() 指 定 
等 待 对 应 PID 的 子 进程 退出 后 的 返回 值 。 一 旦 调用 了 
wait0 或 者 waitpid0， 如 果 对 应 的 子 进程 不 退出 ， 那 么 
父 进程 就 会 一 直 被 阻塞 再 也 无 法 执行 。 如 果 一 直到 子 
进程 退出 之 后 父 进程 还 没有 调用 wait0 或 者 waitpid()， 
则 子 进 程 会 变 为 僵尸 进程 。 而 如 果子 进程 退出 之 前 父 
进程 先 退 出 了 ， 则 子 进程 变 为 孤儿 进程 ， 会 自动 被 
init 进 程 领养 ，init 进 程 会 定期 执行 wait0 来 处 理 可 能 存 
在 的 僵尸 进程 。 


Parent process 
running program “А” 


Child process 

running program “А” 
Pare; Memory of 
at copied to chiq 
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exscos( B, ...) 
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НЯ S 
NE PX 
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| `. program “В” 
Ц мы 
E 


图 10-91 父 进 程 fork 之 后 调用 wait 
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PCparent 一 | 


纵 观 这 个 流程 ， 会 发 现 与 第 9 章 中 介绍 MPI 函 数 
库 时 的 场景 相似 ， 超 级 计算 机 的 多 个 核心 运行 相同 的 
线程 代码 ， 却 可 以 处 理 不 同 的 数据 ， 既 然 代 码 完全 相 
同 ， 它 们 根据 什么 来 判断 自己 处 理 哪 部 分 数据 ? 以 
及 ， 它 们 根据 什么 来 判断 自己 应 该 是 接收 数据 还 是 发 
送 数据 ， 发 送 给 谁 ? 答案 就 是 自己 的 线程 ID。 代 码 这 
№5: if RdA {处 理 数 据 A; 发 数据 O }; 
让 (线程 id 为 1) {处 理 数据 B; 收 数据 О}; 从 而 走 
入 不 同 分 支 。fork() 调 用 之 后 父子 进程 的 运行 过 程 如 
出 一 禾 ， 现 在 你 应 该 更 彻底 地 了 解 了 fork (分 又 ) 这 
个 词 的 含义 了 。 

最 后 ， 我 们 来 看 一 下 如 何 创建 线程 。 理 论 上 ， 线 
程 的 创建 无 非 就 是 显 式 地 给 出 CLONE_VM 即 可 ( 子 线 
程 与 父 进程 共享 同一 个 虚拟 地 址 空间 ， 还 记得 前 文中 
的 mm=oldmm 这 句 么 ?直接 把 父 进程 的 mm 指针 赋值 给 
子 进程 的 mm， 那 么 这 个 子 进程 就 是 一 个 线程 了 ) ， 这 
也 是 前 文中 的 kermel_thread0 函 数 在 调用 do_fork 时 的 做 
法 。libc 库 提供 的 clone0 函 数 ， 可 以 被 用 来 创建 一 个 新 
线程 ， 该 函数 允许 调用 者 给 出 各 种 参数 。int clone(int 
(*fn)(void *), void *child stack, int flags, void *arg); 

其 中 ， 甸 是 线程 的 入 口 函 数 ，child_stack 为 新 线程 的 
用 户 态 栈 指针 注意， 是 用 户 态 栈 ， 不 是 内 核 态 栈 ， 如 
图 10-92 所 示 ， 多 个 线程 的 用 户 态 栈 会 同 处 同一 个 地 址 空 


AIF) ，flags 是 用 于 传递 给 clone 函 数 的 参数 〈 在 这 里 明 
确 给 出 CLONE_VM 参 数 即 可 ) ，arg 是 用 来 传递 给 血 函 
数 的 参数 。clone0 底 层 也 是 系统 调用 ， 对 应 着 sys_clone 
函数 。sys_clone 函 数 代码 如 图 10-93 所 示 。 
OS kernel [protected] OS kernel [protected] 
gu = bi Seem 
Spon 一 ыс 
| — 
shared libraries shared libraries 
| | 
heap (malloc/free) heap (malloc/free) 
read/write segment read/write segment 
„дав, .bss data, .bss 
read-only segment PCenia — read-only segment 
„text, .rodata ем, .rodata 
— РСраем 一 З 
单线 程 一 个 进程 内 的 两 个 线程 


10-92 ”同一 个 虚拟 地 址 空间 中 的 多 个 线程 的 用 户 态 栈 


long SyS, clone(unsigned long clone flags, 
unsigned long newsp, 
void user *parent tid, 
void — user *child tid, 
struct pt regs *regs) 


if (!пем5р) 
newsp = regs-»sp; 
return do fork(clone flags, newsp, regs, ©, 
parent tid, child tid); 


图 10-93 sys clone) fe 


$8108 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 EE 


可 以 看 到 sys_clone() 底 层 其 实 也 是 调用 了 do_ 
fork0 〇 来 做 事 ， 只 不 过 它 调用 do_fork 时 是 直接 把 从 用 
户 态 拿 到 的 flags 参 数 原封 不 动 地 传递 给 后 者 ， 自 己 并 
没有 添加 私 货 进去 。 

一 个 疑惑 在 于 ， 既 然 clone() 拿 到 了 血 ， 证 明 它 在 
创建 了 新 线程 之 后 会 自动 启动 血 函 数 运行 ， 但 是 似乎 
sys_clone() 函 数 的 参数 中 并 没有 血 这 一 项 ， 似 平 sys_ 
clone0 根 本 就 不 管 待 创建 线程 的 入 口 函数 是 什么 ,， 但 
是 它 有 一 个 参数 为 +regs。 前 文中 的 kernel_thread() 在 
创建 kemel init/kthreadd 线 程 时 ， 就 是 直接 来 硬 的 ， 直 
接 把 kermel_init/kthreadd 函 数 的 入 口 埋 入 到 *regs 里 去 从 
而 在 iret 时 中 招 直接 运行 目标 函数 。 但 是 clone0 也 并 没 
有 把 regs 传 递 给 sys_clone0， 所 以 sys_clone0) 拿 到 的 是 
当前 父 进程 的 *regs。 

实际 上 ，clone0 函 数 拿 到 血 ， 并 不 一 定 非得 传递 
给 内 核 而 让 内 核 直 接 运行 ， 它 完全 可 以 按 类 似 下 面 的 
伪 代 码 这 样 来 做 : clone(0{ 带 CLONE_VM 人 参数 的 sys_ 
clone 系 统 调用 ;，if(pid) (ба); exit0;}}。 也 就 是 说 ， 
当 clone 系 统 调用 返回 之 后 ， 父 进程 返回 到 if ( pid ) 执 
行 ， 条 件 不 匹配 ， 继 续 执 行 后 续 代码 ， 会 跳出 clone() 
继续 执行 ， 这 个 行为 符合 父 进 程 的 预期 ， 同 时 ， 子 
线程 也 返回 到 if ( pid ) 继 续 执行 ， 条 件 为 真 ， 则 执行 
fn()， 血 函数 返回 之 后 ， 执 行 exit() 函 数 退 出 当前 线 
程 (exit 也 是 一 个 系统 调用 ) ， 这 也 符合 子 线程 的 
预期 。 

Linux 在 线程 /进程 管理 方面 还 有 很 多 其 他 内 容 ， 
比如 pthread (POSIX Thread) 线程 函数 库 ， 用 这 个 库 
来 创建 和 管理 线程 符合 POSIX 标 准 ， 提 供 了 更 加 细 粒 
度 的 线程 管理 方式 ， 比 如 调用 者 甚至 可 以 指定 待 创建 
线程 的 各 种 细节 属性 ， 比 如 调度 方式 、 是 与 所 有 系统 
内 所 有 线程 共享 CPU 运行 还 是 仅 与 进程 内 其 他 线程 共 
享 CPU 运 行 。 此 外 ， 还 在 多 线程 同步 、 锁 等 方面 做 了 
一 些 封装 。 其 底层 也 使 用 和 封装 了 clone 系 统 调用 ， 但 
是 上 层 行为 略 有 不 同 ， 封 装 程度 不 同 ， 篇 幅 所 限 大 家 
可 自行 了 解 。 


10.2.2.6 fork() 自 测 题 及 深入 思考 


下 面 来 做 个 小 题目 考察 一 下 大 家 对 fork0 的 理解 。 
请 问 下 面 的 程序 会 在 屏幕 上 输出 多 少 行 “hi”? 

int main(void) (int i; for(i=0; i<2; i++) ( fork(); 
printf “hiln” ); } wait(NULL); wait(NULL); return 0;) 

从 这 道 题目 中 ， 冬 瓜 哥 要 问 大 家 6 个 衍生 问题 ， 
考察 一 下 大 家 对 计算 机 底层 体系 结构 是 否 已 经 深刻 理 
解 并 游 思 有 余 ， 顺 带 介绍 一 些 新 知识 。 

总 共 fork 了 几 个 进程 ? 这 段 代 码 的 逻辑 比较 直 
接 ， 循 环 两 次 调用 了 fork()， 先 后 创建 了 两 个 子 进 
程 。 这 样 的 话 ， 父 进程 输出 两 次 ， 由 于 创建 的 两 个 子 
进程 会 继续 进入 循环 一 次 后 跳出 ， 每 次 循环 又 会 各 
自 创 建 出 一 个 子 进程 ， 同 时 输出 一 次 ， 至 此 输出 了 4 
次 ; 两 个 二 级 子 进 程 只 会 各 自 输出 一 次 ， 但 是 不 会 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


继续 循环 了 ， 因 为 i 此 时 已 经 加 到 2 了 。 所 以 该 程序 总 共 输出 了 


6 次 ， 先 后 共 fork 了 4 个 子 进程 ， 其 中 两 个 一 级 子 进程 和 两 个 二 
级 子 进程 。 当 父 进程 以 及 所 有 子 进 程 跳出 循环 之 后 ， 都 会 运行 


wait() 函 数 。 该 函数 会 阻塞 调用 的 进程 ， 等 待 子 进程 〈 任 何 
个 它 的 子 进程 ) 返回 才 继 续 运 行 。 二 级 子 进程 由 于 自己 没有 子 
进程 了 ， 所 以 调用 该 函数 会 返回 -1， 表 示 失 败 ， 然 后 再 次 调用 
wait0 再 次 失败 ， 于 是 最 终 就 return 了 。 

进程 返回 到 了 哪里 ? 这 里 产生 一 个 疑惑 ， 在 一 般 代码 中 好 
像 并 没有 看 到 main 函 数 结尾 必须 调用 exit0)， 很 多 都 只 是 return， 
但 是 这 些 程序 的 确 在 运行 完 后 都 能 够 正常 退出 。 子 进程 结束 不 
是 都 应 该 调用 exit() 来 通知 内 核 彻底 销毁 自己 这 个 进程 么 ? 如 
果 只 是 返回 ， 好 像 无 路 可 走 ， 因 为 main0 函 数 外 层 已 经 没有 可 
执行 的 代码 了 ，main() 函 数 当初 并 不 是 被 call 而 执行 的 ， 那 么 
在 代码 执行 完 后 ， 进 程 的 用 户 栈 中 应 该 是 空 的 ， 此 时 ret 指 令 弹 
出 的 值 会 是 一 个 非法 的 指针 ， 这 会 导致 程序 跑 飞 掉 。 到 底 怎么 
回 事 呢 ? 我 们 似乎 要 追踪 一 下 进程 的 代码 一 开始 到 底 是 怎么 加 
载 的 。 

先 回顾 一 下 内 核 线程 是 如 何 被 加 载 的 。 回 顾 图 10-75 中 的 
kernel_init 内 核 线程 被 运行 的 过 程 ， 可 以 发 现 kernel thread()iX 
个 专门 创建 并 加 载 内 核 线程 的 角色 ， 其 并 不 是 直接 运行 目标 
内 核 线程 的 入 口 函数 的 ， 而 是 先 运行 kernel thread_helper， 由 
这 个 helper 去 call 目 标 内 核 线程 的 入 口 函数 从 而 执行 目标 内 核 线 
程 ， 这 样 ， 内 核 线程 在 return 的 时 候 其 实 是 return 到 helper 中 继续 
运行 ， 而 helper 会 继续 执行 do_exit， 最 终 销 毁 该 线程 。 所 以 ， 
任何 内 核 线 程 其 实 是 被 call 起 来 运行 的 ， 所 以 它 当然 可 以 返 
回 。 所 以 ， 该 线程 对 应 的 内 核 栈 空间 的 最 底部 其 实 一 直 都 是 有 
铺垫 的 ， 也 就 是 留 有 helper 函 数 中 当初 call 目 标 入 口 函数 的 call 指 
令 的 下 一 条 指令 的 地 址 ， 所 以 当 线 程 return 之 后 其 实 是 继续 执行 
了 helper 函 数 。 

对 于 用 户 态 进程 ， 在 加 载 可 执行 文件 时 ， 可 执行 文件 的 
入 口 地 址 其 实 并 不 直接 就 是 用 户 程序 的 main0 〇 函数 ， 而 是 在 生 
成 这 个 文件 时 ， 给 最 终 用 户 程序 包装 了 一 层 铺垫 代码 ， 可 执 
行文 件 运行 其 实 是 先 运 行 了 这 段 铺垫 代码 ， 最 终 执行 到 比如 
libe_start_main() 函 数 ， 由 它 来 call main 最 终 执 行 了 用 户 代 码 ， 
而 用 户 代码 可 以 选择 在 结束 之 前 调用 exit ОК [РИА ) А 
接 通 知 内 核 销 毁 这 个 进程 〈 当 然 返 回 值 会 被 放置 到 进程 残留 
的 数据 结构 比如 task_struct 中 ， 等 待 父 进程 来 wait 或 者 waitpid 
获取 并 最 终 销毁 ) ， 或 者 用 户 程序 不 调用 exit 而 直接 return Ж 
回 值 ， 此 时 会 return 到 libc 的 外 包 右 代码 ， 由 后 者 收拾 残局 并 
调用 exitO) 并 最 终 通 知 内核 销 毁 该 进程 。 所 以 ， 不 管 是 内 核 还 
是 用 户 进程 /线程 ， 它 们 外 部 都 是 有 一 层 包 衷 代码 为 它们 做 铺 
ET 

i++ 在 哪 一 步 执行 ? 如 果 将 上 述 代码 转换 为 汇编 机 器 指 
令 伪 代码 的 话 ， 如 图 10-94 所 示 ， 其 中 ， 伪 代码 Jmp_B 为 条 
件 跳 转 (如 果 上 一 步 的 比较 结果 是 “大 于 ”就 跳 转 ) 。 红 色 
的 代码 显然 是 无 误 的 。 构 色 代码 将 add 提 前 到 了 Call 之 前 ， 由 
于 在 Cmp 指 令 之 后 该 程序 并 没有 代码 会 用 到 变量 1， 所 以 用 于 
循环 控制 的 + 语句 对 应 的 Add 指 令 在 Jmp 指 令 之 后 也 是 没有 
问题 的 ， 而 如 果 for 循 环 内 的 代码 有 用 到 i， 则 i++ 就 不 能 被 放 
到 这 里 。 绿 色 代码 显然 是 错 的 ， 因 为 它 会 造成 死 循 环 ， 并 最 
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图 10-94 ”for 循 环 的 编译 后 代码 以 及 x86 处 理 器 的 eflags 寄 存 器 示意 图 


终 可 能 导致 系统 崩溃 ， 为 什么 呢 ? 因为 它 每 次 循环 
会 创建 一 个 子 进程 ， 最 后 达到 系统 上 限 ， 而 且 创建 
出 来 的 子 进程 自身 也 在 不 断 死 循环 ， 可 能 会 迅速 导 
致 系统 崩溃 。 那 么 ， 黑 色 代码 是 否 有 问题 ? 这 就 得 
深入 理解 条 件 跳 转 语句 是 如 何 判断 各 种 条 件 的 了 。 
它 的 条 件 输入 来 自 eflags 标 志 寄 存 器 中 对 应 的 各 种 标 
志 ， 有 大 量 的 不 同 操作 码 的 条 件 跳 转 语句 ， 它 们 各 
自 都 根据 eflags 标 志 寄 存 器 中 不 同 的 标志 或 者 标志 的 
组 合 来 判断 是 否 跳 转 。 所 以 ， 在 条 件 跳 转 语句 之 前 
的 任何 语句 的 执行 如 果 对 标志 寄存 器 〈 如 图 10-94 右 
MAR) 中 对 应 的 标志 产生 了 影响 ， 就 可 能 会 潜在 
地 影响 跳 转 语句 的 判断 结果 。 这 条 add 语 句 到 底 会 把 
寄存 器 A 中 的 值 加 成 多 少 是 编译 器 不 可 预知 的 ， 一 
旦 +1 之 后 产生 进位 则 会 改变 CF (Carry Flag， 进 位 
标志 ) ， 如 果 加 1 之 后 结果 变 为 0 则 会 改变 ZF (Zero 
Flag) 标志 ， 而 如 果 条 件 跳 转 指令 恰好 就 是 根据 ZF 
和 CF 来 判断 是 否 跳 转 的 话 ， 那 么 这 条 插入 的 Add 指 
令 就 会 产生 潜在 的 错误 。 所 以 编译 器 并 不 会 在 Cmp 和 
条 件 跳 转 指 令 之 间 插 入 任何 潜在 改变 eflags 寄 存 器 的 指 
令 。 最 终 来 讲 ，it+ 对 应 的 Add 指 令 放 到 循环 结尾 的 Jmp 
跳 回 语句 之 前 执行 是 最 保险 的 。 

forkO 只 复制 了 父 进程 的 内 存 ， 而 没有 复制 寄存 
器 ， 怎 么 办 ? 即便 按照 红色 的 正确 代码 运行 ， 在 执 
行 fork0 后 ， 其 内 部 会 调用 copy_mm0 将 父 进程 的 内 存 
指针 数据 结构 复制 出 来 。 但 是 ，copy_mm 并 没有 复 
制 寄存 器 中 的 内 容 ， 比 如 变量 i 的 值 。 那 么 ，fork() 之 
后 的 子 进程 在 运行 的 时 候 ， 没 有 了 变量 i， 就 无 法 控 
制 子 进程 的 循环 了 ? 其 实 这 里 忽略 了 一 点 ， 那 就 是 
forkO 是 个 系统 调用 ， 系 统 调 用 入 口 的 汇编 代码 会 执 
行 SAVE_ALL 过 程 将 当前 的 寄存 器 保存 在 父 进程 的 内 
核 栈 里 ， 而 后 面 的 sys_forkO 下 游 代码 自然 会 将 父 进程 
的 内 核 栈 中 的 内 容 也 复制 给 子 进 程 《 如 图 10-89 中 的 
*childregs=*regs) ， 而 forkO 在 子 进程 中 返回 的 时 候 会 
RESTOR_ALL (图 10-89 右 侧 的 第 10 步 ) ， 自 然 也 会 
恢复 了 当时 的 寄存 器 ， 变 量 并 没有 丢失 。 

乱 序 执行 怎么 办 ? 我 们 来 考察 一 下 CPU 的 乱 序 执 
行 对 这 段 代 码 的 影响 。 以 红色 代码 为 例 ，Stor 和 Cmp 
指令 之 间 形 成 了 RAW (Read After Write) 相关 ， 真相 
关 ， 所 以 CPU 不 能 将 Cmp 提 前 到 Stor 指 令 执行 。Jmp_ 
B〔 如 果 大 于 就 跳 转 ) 属于 条 件 跳 转 ， 必 须 不 能 提前 
执行 ， 因 为 它 依赖 于 上 一 条 指令 的 执行 结果 ， 本 质 上 
也 属于 RAW 相关 。Add 指 令 和 Cmp 指 令 形成 了 WAR 关 
系 ， 伪 相关 ，Add 是 可 以 提前 执行 的 ， 只 不 过 要 先 将 
执行 结果 放 入 重 命名 寄存 器 进入 保留 站 ， 然 后 在 ROB 
(Reorder Buffer) 中 重 排 提交 。 

while(1){fork0} 会 怎样 ? 这 个 代码 被 称 为 fork 炸 
弹 ， 因 为 父 进程 会 不 断 地 派生 子 进程 ， 而 每 个 子 进程 
执行 时 依然 处 于 while 循 环 内 部 ， 条 件 总 为 真 ， 于 是 
子 进程 继续 派生 子 进程 ， 无 穷 无 尽 ， 导 致 系统 良 溃 。 
其 实 ， 直 接 编写 shell 脚 本 就 可 以 生成 fork 炸 弹 。:O{ 
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6 };:， 只 要 把 这 几 个 字符 写成 shell 脚 本 并 在 shell 下 
运行 ，shell 命 令 解释 器 就 会 解释 其 中 的 命令 并 运行 ， 
该 命令 的 具体 含义 有 兴趣 的 读者 可 以 自行 查阅 。 解 决 
fork 炸 弹 的 方法 是 为 每 个 用 户 设置 最 大 可 运行 的 进程 
数量 上 限 。 

通过 这 道 简单 的 题目 ， 我 们 的 思维 可 深 可 浅 ， 往 深 
了 去 ， 可 以 到 乱 序 执行 的 机 制 ， 往 浅 了 走 ， 那 只 看 语法 
就 能 解 题 。 任 何 一 段 不 起 眼 的 程序 ， 底 层 其 实 都 是 暗流 
测 涌 ， 能 看 到 哪 一 层 ， 依 赖 于 你 曾经 潜入 到 哪 一 层 。 


10.2.2.7 ”用 户 空间 线程 / 协 程 


现在 ， 让 我 们 将 思路 瞬间 切 回 到 最 原始 的 状态 ， 
来 重新 审视 一 下 线程 切换 ， 操 作 系统 究竟 为 什么 把 线程 
切换 实现 得 如 此 复杂 ? 请 翻 回 到 第 5 章 的 5.5.6 节 中 的 那 
个 “我 的 一 天 ”的 程序 中 ， 其 中 有 多 个 线程 : 起 床 、 听 
歌 、 做 饭 、 运 动 、 睡 觉 等 。 我 们 对 多 线程 的 切换 ， 就 是 
从 那里 开始 思考 的 ， 当 时 的 思路 很 简单 ， 我 听 歌 听 了 一 
半 想 去 做 饭 ， 然 后 做 饭 做 到 一 半 又 想 继续 听 之 前 没 听 完 
的 歌 ， 这 其 实 是 很 简单 的 一 件 事 。 而 当时 的 结论 是 ， 我 
不 能 在 听 歌 过 程 中 去 调用 做 饭 程序 ， 在 做 饭 做 到 一 半 又 
去 调用 听 歌 程序 ， 因 为 每 次 调用 都 会 从 程序 的 开头 处 执 
行 ， 而 无 法 从 断 点 开始 执行 。 然 后 得 出 结论 ， 只 要 将 每 
个 线程 的 断 点 信息 保存 起 来 ， 将 来 再 次 运行 时 ， 先 恢复 
现场 ， 然 后 再 运行 。 就 这 么 简单 ! 

是 ,但 是 这 个 事情 ， 到 了 OS 手 里 ， 就 被 实现 得 
非常 复杂 。 也 难怪 ， 因 为 OS 考虑 的 实在 是 太 多 了 ， 系 
统 调用 、 权 限 、 页 表 、 用 户 栈 内 核 栈 还 得 分 开 等 ， 架 
构 极 其 复杂 。 想 一 下 ， 能 否 直接 在 用 户 态 ， 完 全 不 依 
赖 操 作 系统 内 核 ， 自 行 实现 线程 的 切换 ? 只 要 秉承 一 
点 : 切换 前 保存 前 任 线程 的 现场 ， 切 换 时 恢复 下 任 线 
程 的 现场 。 

思考 一 下 ， 线 程 是 否 可 以 完全 不 委托 内 核 ， 自 己 
把 自己 的 现场 保存 起 来 ? 然后 把 下 一 个 要 运行 的 线程 
的 上 下 文 提取 出 来 摆 到 CPU 里 去 ， 然 后 默默 离 去 ， 留 
给 下 一 个 线程 继续 运行 ? 多 个 线程 相互 协作 ， 主 动 将 
接力 棒 转 交 给 下 一 棒 ， 这 种 多 线程 协作 方式 ， 被 称 为 
TM Cco-routine) 。 

如 图 10-95 所 示 ， 某 进程 中 存在 A 和 B 两 个 协 程 。 
当 A 协 程 想 要 切换 到 B 协 程 运 行 之 前 ， 其 主动 将 CPU 
内 的 寄存 器 全 部 压 入 用 户 态 栈 中 ， 其 先 把 断 点 eip_ 
next， 也 就 是 其 后 续 被 切换 回来 时 要 运行 的 那 名 代码 
的 地 址 压 入 栈 底 ， 然 后 压 入 其 他 寄存 器 值 ， 最 后 ， 把 
当前 SP 寄存 器 的 值 〈 指 向 栈 顶 ) 写 入 到 内 存 中 的 一 个 
专门 用 于 记录 每 个 协 程 切 出 去 时 的 SP 值 的 表 中 的 对 应 
项 目 。 这 就 保存 好 了 A 的 全 部 现场 。 

下 一 步 ， 协 程 A 该 把 协 程 B 的 现场 摆 到 桌 上 了 。 
协 程 B 的 现场 从 哪儿 拿 ? 当然 是 从 协 程 B 的 栈 中 弹 栈 
出 来 ， 协 程 B 当 时 切 出 去 时 的 栈 项 指针 从 哪儿 获取 ? 
当然 是 从 那个 记录 表 中 获取 。 于 是 ， 协 程 A 从 表 中 将 
B 之 前 自己 保存 的 SP 值 载 入 SP 寄存 器 ， 此 时 ， 栈 就 切 


下 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


协 程 A 
主体 代码 


push eip_next 
push eflags 
push ebp 

o9 push eax 


push ebx 
push ...... 
push ...... 


mov esp [table.A]- 
mov [table.B] SP 


e 
e 
pop ..... 
рор... 
Өз | pop isp 
pop EFLAGS 
e 


ret 
eip_next 一 区 | .主体 代码 .。 


进程 虚拟 地 址 空间 


push eip next 
push eflags 
push ebp 

push eax 

push ebx 

push ....... 

push ....... 

mov esp [table.B] 
mov [table.A] SP 
рор..... 

рор..... 

рор ЕВР 

рор EFLAGS 


<— eip next 


10-95 ” 协 程 基本 原理 示意 图 


换 到 了 B 的 栈 ， 后 续 的 pop 指 令 会 从 B 而 不 是 A 的 栈 中 
弹出 之 前 被 B 自 己 收拾 好 的 各 种 项 目 ， 入 栈 和 弹 栈 的 
寄存 器 顺序 必须 严格 一 致 ， 每 个 协 程 遵守 同样 的 顺 
序 。 就 这 样 一 直 弹 啊 弹 啊 ， 当 栈 中 只 剩 下 了 eip_next 
(B 当 时 保存 的 ) 时 ， 协 程 A 算 好 了 这 一 刻 ， 它 会 执 
行 ret 指 令 ， 该 指令 相当 于 pop EIP， 会 导致 CPU 继续 
从 eip_next 开 始 执 行 ， 也 就 是 从 B 的 断 点 eip 处 开始 执 
行 ， 从 而 继续 执行 了 B 协 程 。 每 当 要 切换 到 其 他 协 
程 ， 当 前 正在 执行 的 协 程 就 可 以 利用 上 述 这 段 汇编 代 
码 来 自己 收拾 好 自己 的 零碎 东西 到 箱子 里 ， 然 后 从 箱 
子 里 拿 出 别人 的 锅 硫 标 盆 摆好 ， 执 行 。 

上 述 保 存 和 恢复 现场 的 动作 ， 如 果 是 传统 的 线 
程 ， 会 由 内 核 程序 的 SAVE_ALL 和 RESTOR_ALL 宏 来 
执行 ， 相 当 于 你 正在 做 一 件 事情 突然 想 休息 一 下 ， 然 
后 回来 接着 干 ， 你 并 不 是 自己 亲自 把 桌 上 的 烂摊子 收 
拾 好 ， 而 是 用 系统 调用 (schedule()) 来 通知 OS 帮 你 
收拾 ，OS 切 换 到 你 运行 之 前 会 帮 你 摆 放 好 一 切 。 

只 能 在 单个 线程 /进程 内 部 实现 协 程 ， 也 就 是 说 ， 
协 程 之 间 必 须 串 行 运行 ， 这 就 像 接 力 赛 ， 一 棒 一 棒 地 
传 ， 第 一 棒 在 跑 着 ， 第 四 棒 不 能 跑 ， 否 则 就 是 娱乐 观 
众 了 。 也 就 是 说 ， 多 个 协 程 流 必须 不 能 被 同时 并 行 执 
行 ， 这些 协 程 流 必须 被 编排 到 一 个 单一 的 任务 中 ， 这 
个 任务 如 果 独 占 某 个 虚拟 地 址 空间 ， 那 它 就 是 一 个 单 
一 的 进程 ， 如 果 多 个 任务 共享 同一 个 地 址 空间 ， 那 它 
们 就 是 多 个 线程 。 每 单个 线程 /进程 内 部 可 以 实现 多 个 


相互 跳 转 的 协 程 ， 每 个 线程 /进程 被 调度 到 CPU 执行 的 
时 候 ，CPU 一 定 会 顺序 执行 该 线程 /进程 中 的 代码 ， 一 
个 线程 /进程 内 部 的 多 个 协 程 是 不 可 能 被 分 别 调度 到 不 
同 CPU 核 心 上 运行 的 ， 因 为 OS 是 根本 感知 不 到 线程 内 
部 发 生 了 什么 的 。 

那 协 程 和 函数 调用 有 什么 不 区 别 ? 再 次 强调 ， 函 
数 调用 每 次 只 能 从 函数 的 入 口 进 去 执行 ， 无 法 从 某 个 
函数 的 中 间 切 进去 ， 而 协 程 则 可 以 在 函数 内 部 任何 一 
处 直接 用 上 述 代码 跳 到 其 他 协 程 的 任何 一 处 执行 。 这 
本 质 上 就 是 call 和 jmp 的 区 别 。 那 为 何不 直接 用 Jmp 跳 
转 到 目标 函数 执行 ? 看 上 去 好 像 效 果 一 样 ， 比 如 听 歌 
跳 到 做 饭 ， 做 饭 再 跳 回 听 歌 的 断 点 处 继续 。“ 跳 到 听 
歌 的 断 点 处 ”， 你 怎么 知道 断 点 在 哪儿 ? 是 不 是 要 保 
存 一 下 ? 还 有 ， 听 歌 的 执行 上 下 文 状态 ， 也 需要 保存 
起 来 。 相 比 之 下 ， 如 果 是 调用 的 方式 ， 则 所 有 的 上 下 
文 是 按照 线性 先后 顺序 被 放置 到 单一 的 栈 里 ， 返 回 时 
依次 恢复 上 下 文 。 所 以 ，Jmp+ 上 下 文保 存 ， 本 质 就 是 
如 图 10-95 所 示 的 方案 了 。 

libc 库 中 己 经 把 图 10-95 中 的 基本 原理 封装 成 了 
setjmp( 和 longjmpO 函 数 ， 前 者 的 作用 就 是 初始 化 协 
程 ， 后 者 则 是 进行 切换 ， 当 然 实际 的 设计 相对 图 示 过 
程 会 有 很 多 不 同 之 处 。 目 前 有 很 多 第 三 方 的 库 实 现 了 
各 自 不 同 的 协 程 设计 ， 在 高 压力 大 并 发 场景 (比如 互 
联网 服务 器 中 的 程序 每 秒 要 处 理 大 量 的 客户 端 连 接 请 
求 ) 得 到 了 广泛 的 应 用 。 


第 10 章 “计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 [ED 有 且 和 


如 果 将 多 个 协 程 实现 为 多 个 线程 ， 那 么 它们 就 必须 接受 内 核 
的 调度 ， 频 繁 被 阻塞 和 唤醒 会 严重 影响 性 能 ， 此 外 ， 多 线程 之 间 
必须 实现 同步 机 制 ， 假 设 这 些 线程 之 间 有 某 种 先后 依赖 关系 ， 比 


如 A 必须 先 于 B 运 行 ， 而 内 核 并 不 知道 这 种 关系 ， 可 能 先 运行 了 ГЕ 
B， 就 会 出 问题 。 多 个 线程 的 一 个 最 大 好 处 是 可 以 利用 多 核心 CPU 558 
的 物理 并 行 优势 ， 让 多 线程 同时 运行 ， 提 高 并 发 度 ， 但 是 并 发 执 SRS 
行 会 产生 另 一 个 副作用 ， 那 就 是 对 共享 资源 必须 上 锁 ， 锁 也 会 严 Bin 
重 影响 性 能 ， 甚 至 让 并 发 度 带 来 的 好 处 荡然 无 存 。 SERI 
相 比 之 下 ， 协 程 在 单个 线程 内 部 实现 ， 完 全 在 用 户 态 实现 自主 HN 
协作 切换 。 协 程 之 间 的 执行 完全 按照 既定 顺序 ， 协 程 切换 时 相 比 调 BER 


用 schedule0 函 数 进入 内 核 委 托 后 者 而 言 ， 拥 有 完全 自主 的 可 控 性 ， 
以 及 更 小 的 开销 ， 所 以 有 更 高 的 性 能 。 然 而 ， 线 程 内 部 的 协 程 毕竟 
还 是 只 能 在 单 核心 上 顺序 运行 的 ， 无 法 物理 并 发 。 那 么 ， 如 果 将 一 
些 不 访问 共享 资源 的 无 锁 多 线程 调度 到 多 核心 上 物理 并 发 ， 同 时 
将 那些 要 访问 共享 资源 不 得 不 加 锁 的 代码 流 做 成 协 程 放 入 每 个 线程 
内 部 让 它们 只 能 按照 既定 规则 顺序 执行 ， 那 就 可 以 不 需要 锁 了 。 所 
以 多 线程 + 每 个 线程 内 多 个 协 程 ， 在 一 些 场景 下 可 以 最 大 化 性 能 。 

如 果 线 程 内 的 任何 一 个 协 程 执行 了 系统 调用 ， 则 整个 线程 就 
要 阻塞 ， 这 个 协 程 接力 队 的 队员 全 都 要 受 牵连 而 下 场 。 因 为 内 核 
根本 感知 不 到 线程 内 部 的 再 次 细 分 ， 也 不 可 能 去 调度 其 中 的 任何 
一 个 协 程 继续 运行 ， 也 必须 不 能 。 


至 此 ， 我 们 梳理 一 下 进程 、 线 程 、 协 程 。 每 个 独立 的 代码 
流 ， 在 Linux 下 被 称 为 一 个 Task (任务 ) 。 每 个 任务 拥有 一 个 tfask_ 
struct， 可 被 独立 调度 到 CPU 上 运行 。 如 果 多 个 任务 共享 同一 个 虚 
拟 地 址 空间 ， 那 么 这 些 任务 可 以 称 为 在 这 个 虚拟 地 址 空间 上 运行 
的 线程 (Thread ) ， 或 者 说 轻 量 级 进程 (LWP ) ， 位 于 同一 个 虚 
拟 地 址 空间 中 的 所 有 线程 /任务 组 成 一 个 线程 组 /任务 组 。 如 果 某 个 
虚拟 地 址 空间 上 只 有 一 个 任务 在 运行 ， 那 么 该 任务 此 时 可 以 被 称 
为 一 个 进程 (Process ) 。 如 果 某 个 任务 只 运行 在 内 核 态 ， 比 如 前 
文中 的 kthreadd 进 程 等 ， 那 么 它们 属于 内 核 态 线程 或 者 简称 内 核 线 
程 ; 如 果 某 个 任务 平常 运行 在 用 户 态 ， 只 有 发 生 系统 调用 之 后 才 
进入 内 核 态 运行 ， 那 么 其 属于 用 户 态 线程 /进程 /任务 。 上 述 的 这 
几 种 线程 /任务 /进程 ， 都 由 内 核 统一 管理 和 调度 ， 所 以 它们 都 被 称 
为 内 核 管理 的 线程 /进程 /任务 ， 或 者 内 核 空间 线程 /进程 /任务 。 注 
意 ， 内 核 空间 并 不 意味 着 内 核 态 线程 。 而 如 果 某 个 任务 内 部 有 多 
个 协 程 ， 这 些 协 程 又 被 称 为 用 户 空间 线程 ， 由 用 户 态 协 程 库 代 码 
来 负责 实现 和 管理 ， 内 核对 此 毫 无 感知 。 对 于 Windows 操 作 系 统 ， 
概念 有 些许 差别 ， 一 个 虚拟 地 址 空间 中 运行 一 个 进程 ， 一 个 进程 
中 可 以 包含 多 个 线程 。 


тй, 


运行 线程 B 


CPU Core2 


我 也 感觉 到 了 这 股 很 奇怪 的 执 

回 时 弹 栈 ， 现 在 是 直接 收 到 跨越 式 

改变 SP 的 指令 。 不 过 我 这 边 的 程序 

似乎 在 很 有 规律 地 做 着 某 种 循环 
ТЕ 


以 往 都 是 Call 指 令 ， 层 层 压 栈 , 返 


我 们 不 依赖 于 内 核 来 
线程 、 内 核 、CPU 的 关系 


有 多 条 执行 流 相互 接 
我 们 自主 切换 ! 
10-96 ЊЕ, 


我 们 是 协 程 ! 我 内 部 
л. 


最 后 ， 如 图 10-96 所 示 ， 以 一 幅 漫 画 来 介绍 协 程 、 线 程 、 内 核 、 
CPU 的 关系 。 协 程 是 线程 内 部 更 细 粒 度 的 代码 流 单 元 ， 比 线程 更 加 
纤细 ， 所 以 又 有 人 称 之 为 Fiber (纤维 ， 纤 程 ) 。 从 另 一 个 角度 ， 协 
程 之 间 的 切换 代价 非常 小 ， 所 以 还 有 人 称 之 为 Green Thread。 一 个 协 
程 跳 到 另 一 个 协 程 的 过 程 又 被 俗称 为 yield〈 主 动 让 出 ) 。 

协 程 虽 精彩 绝伦 ， 但 是 其 所 在 的 线程 /进程 依然 逃 不 出 操作 系 
统 内 核 的 感知 和 管理 ， 是 时 候 考察 一 下 内 核 到 底 是 怎么 管理 所 有 
任务 的 了 。 


ТА 


CPU Соге1 


变 SP 指针 > 难道 它们 内 部 自 创 了 多 个 栈 ? 
正在 运行 


切换 后 竟然 自主 压 栈 、 弹 栈 ? 通常 我 一 
般 进 入 内 核 态 后 才 会 被 要 求 做 这 件 事 。 


为 何 程序 会 让 我 频繁 地 跳跃 式 地 主动 改 


我 好 像 感 觉 到 了 一 股 不 一 样 的 指令 流 ， 


下 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


10.2.2.8 ”任务 状态 


内 核 使 用 了 一 套 非常 复杂 的 数据 结构 以 及 调度 
算法 来 管理 任务 ， 当 然 ， 还 是 先 从 简单 的 说 起 ， 每 
个 任务 起 码 要 有 一 个 状态 。 当 进程 执行 了 外 部 IO 操 
作 之 后 ， 比 如 向 硬盘 发 起 了 I/O 操 作 ， 由 于 硬盘 的 
响应 时 间 在 毫秒 级 ， 而 CPU 执行 指令 的 时 间 在 纳 秒 
级 ， 当 IO 数据 没有 返回 之 前 ， 这 个 进程 可 以 选择 不 
运行 〈 见 前 文中 介绍 过 的 阻塞 式 IO 调 用 ) ， 一 直到 
数据 准备 好 之 后 才 继 续 运行 。 当 这 类 执行 了 阻塞 式 
I/O 调 用 的 进程 进入 内 核 之 后 ， 内 核 需要 将 其 任务 
状态 设置 为 TASK_UNINTERRUPTIBLE (不 可 中 断 
睡眠 ) ， 然 后 调用 schedule() 切 换 到 其 他 任务 运行 ， 
schedule() 只 会 从 那些 被 标记 为 TASK_RUNNING 状 
态 的 任务 中 按照 某 种 策略 挑 出 一 个 来 切换 到 它 ， 不 
会 去 碰 那 些 被 置 为 TASK_UNINTERRUPTIBLE 状 态 
的 任务 ， 所 以 这 些 任务 便 处 于 了 被 阻塞 (Suspend) 
或 者 说 睡眠 /休眠 (Sleeping) KRE. schedule) K 
数 俗称 为 调度 器 。 


被 标记 为 TASK RUNNING 状态 的 任务 并 不 意 
味 着 它 当 前 正在 运行 ， 而 只 意味 着 它 可 以 被 调度 到 
CPU 上 运行 。 内 核 维护 了 一 个 名 叫 current 的 指针 指 
向 当前 正在 CPU 上 运行 的 任务 。 假 设 系统 只 有 一 个 
CPU 核心 ， 而 可 以 存在 多 个 状态 为 TASK_RUNNING 
的 任务 。 在 老 版 本 的 Linux 中 ,的确 有 另 一 个 状态 用 
于 标识 那些 可 被 运行 但 是 暂时 没有 可 用 的 CPU 核 心 
的 状态 ， 被 称 为 等 待 态 ，TASK_READY。 


假设 所 有 的 线程 都 被 阻塞 了 怎么 办 ? 那么 至 少 
系统 内 还 有 一 个 idle 进 程 〈 进 程 0) ， 该 进程 永远 处 
于 TASK_RUNNING 状 态 ， 调 度 器 没 得 可 挑 ， 那 就 
只 能 运行 它 了 。 那 么 假设 系统 中 如 果 有 多 个 TASK_ 
RUNNING 状 态 的 任务 ， 而 调度 器 一 旦 挑 中 了 idle 来 运 
行 ， 岂 不 是 本 末 倒 置 了 ? 所 以 你 可 以 隐约 感觉 到 ， 需 
要 给 每 个 任务 设置 一 个 类 似 优先 级 的 属性 ， 而 idle 进 
程 优先 级 一 定 是 最 低 的 ， 这 样 就 可 以 确保 只 有 走 投 无 


状态 码 


më шт 


正在 运行 或 者 可 以 运行 ( FAITE АЗАТ) 


不 可 被 中 断 的 休眠 坊 ， 通 常 正在 等 竺 MO 完成 


可 被 中 断 的 休眠 杞 ， 通 常 正在 等 待 某 个 事件 到 来 ， 比 如 某 个 信号 或 者 MO 完成 


停止 志 。 通常 被 shell 的 任务 控制 逻辑 所 停止 ， 或 者 正在 被 debugger 所 控制 


BELLI 3428 т 


低 权 级 的 进程 


正在 执行 Paging 


对 应 的 进程 为 session leader 


对 应 进程 处 于 一 个 前 台 进 程 组 中 


^|-|*|o|s| z| || |9|» 


对 应 进程 包 合 多 个 线程 


高 权 级 进程 


路 才 去 运行 idle。 

当 内 核 执 行 完 1/O 获 取 了 对 应 数据 之 后 ， 需 要 把 
与 这 个 IO 相关 的 那个 之 前 被 阻塞 的 任务 的 状态 重新 
变 为 TASK RUNNING， 这 样 ， 在 后 续 的 调度 机 会 到 
来 时 ， 调 度 器 就 可 以 挑选 该 任务 运行 了 。 这 个 过 程 
被 称 为 任务 的 唤醒 (Wake Up) 。 这 里 可 以 隐约 感觉 
到 ， 一 定 需要 某 种 机 制 来 记录 “哪个 任务 执行 了 哪个 
IO” 或 者 类 似 的 信息 ， 这 样 才能 在 IO 完成 时 只 唤醒 
那些 等 待 该 TO 数据 的 任务 。 

如 图 10-97 所 示 为 Linux 2.6.39 版 本 下 的 各 种 任 
务 状态 一 览 。 在 shell 下 执行 ps -ax 命令 可 以 看 到 每 
个 任务 所 处 的 状态 ， 图 中 左 侧 为 每 个 状态 的 缩 略 
字 及 其 含义 ， 右 侧 为 每 种 状态 对 应 的 编码 。 由 于 
篇 幅 所 限 ， 除 了 主流 的 TASK_RUNNING、TASK_ 
INTERRUPTIBLE 和 TASK_UNINTERRUPTIBLE 之 外 
的 其 他 状态 请 大 家 自行 了 解 。 

现在 来 说 说 TASK_INTERRUPTIBLE 〈 可 中 断 睡 
ІК) 状态 。 该 状态 与 不 可 中 断 睡眠 态 的 区 别 在 于 ， 对 
于 前 者 ， 内 核 如 果 发 现 有 发 送 给 它 的 信号 〈 信 和 号 来 自 
于 其 他 任务 或 者 内 核 自身 ) ， 则 内 核 会 将 其 唤醒 来 处 
理 信 号 ， 所 以 其 称 为 可 中 断 睡 眼 。 而 内 核 并 不 会 因为 
有 信号 等 待 处 理 而 去 唤醒 TASK_UNINTERRUPTIBLE 
状态 的 任务 。 信 号 是 什么 东西 ? 


到 这 里 ， 不 管 你 有 没有 这 个 疑惑 ， 冬 瓜 哥 想 再 
次 请 大 家 理解 透彻 一 个 问题 OS 到 底 是 什么 ! OS 
就 是 一 堆 必须 在 高 权限 运行 的 、 管 理 硬件 、 管 理 任 
务 的 创建 运行 删除 的 、 管 理 用 户 登录 等 的 程序 代码 
通 数 和 数据 结构 。 这 堆 函 数 和 数据 结构 是 死 的 ， 它 
们 无 法 自己 运行 。 这 堆 代码 的 运行 有 4 个 触发 点 : 
OS 内 核 早期 启动 时 存在 一 条 天 然 的 执行 线程 ， 也 就 
是 CPU 加 电 后 天 然 地 会 从 一 个 入 口 不 断 地 执行 ， 形 
成 了 天 然 的 执行 线路 ， 这 条 执行 线路 最 终 演化 为 内 
核 idel 进 程 ; 第 二 个 触发 点 是 在 内 核 初始 化 时 ， 创 
建 了 多 个 内 核 线程 ， 这 些 内 核 线程 将 内 核 中 对 应 的 
ВЖЕ; 第 三 个 触发 点 是 由 于 外 部 中 断 


#define TASK RUNNING 

*define TASK INTERRUPTIBLE 
define TASK UNINTERRUPTIELE 
define. TASK STOPPED 


#define TASK TRACED 


#define EXIT. ZOMBIE 
#define EXIT DEAD 


#define TASK_DEAD 


#define TASK_WAKEKILL 


define ТАК WAKING 


8 Е *define TASK_STATE МАХ 


图 10-97 各 种 任务 状态 一 览 


而 让 系统 状态 进入 一 个 特殊 的 环境 下 ， 也 就 是 中 断 
上 下 文 ， 从 中 断 处 理 函数 入 口 的 执行 线路 ; 第 四 个 
触发 点 则 是 从 init 进 程 继承 出 去 的 多 个 用 户 任务 执行 
了 系统 调用 时 ， 用 户 任务 进入 内 核 态 执行 。 再 次 强 
调 一 点 ， 内 核 态 的 代码 和 数据 只 有 一 份 ， 多 个 用 户 
态 任务 都 可 以 执行 同一 个 系统 调用 ， 比 如 read()， 
它们 执行 的 是 同一 份 read() 代 码 ， 这 些 线程 执行 时 
会 访问 同样 的 物理 内 存 区 域 ， 但 是 ， 不 同 线程 执行 
代码 处 理 的 数据 是 不 一 样 的 ， 内 核 代码 通过 判断 当 
前 任务 的 task_struct 来 区 分 到 底 是 哪个 任务 调用 了 
read()， 读 取 的 是 哪个 文件 的 哪个 部 分 ， 读 出 的 内 
容 放 在 哪个 位 置 ， 等 等 。 这 一 点 已 经 在 书 中 其 他 地 
方 有 所 强调 ， 一 定 要 深刻 理解 。 


10.3 任务 间 通 信和 与 同步 


本 节 我 们 以 Linux Kernel 2.6.39.4 版 本 为 基准 为 大 
家 介绍 任务 之 间 如 何 相互 协作 、 同 步 ， 包 括 : 如 何 传 
递 各 种 信号 和 信息 ， 如 何 休眠 和 唤醒 ， 面 对 共享 资源 
时 如 何 避 免 访 问 冲突 。 


10.3.1 信号 及 其 处 理 


比如 shell 正 在 运行 某 个 前 台 程序 命令 ， 尚 未 结 
束 ， 突 然 你 不 想 继续 让 它 运行 了 ， 按 下 了 Ctrl+C 组 合 
键 ， 内 核 接收 到 这 个 键 码 之 后 ， 便 直接 将 当前 任务 结 
束 掉 了 。 实 际 上 ，Ctrl+C 导 致 内 核 向 该 进程 发 送 了 一 
个 SIGINT 信 号 ， 而 由 于 该 任务 并 没有 告诉 内 核 收 到 
SIGINT 信 号 后 的 行为 ， 那 么 内 核 便 使 用 默认 的 信号 处 
理 方式 处 理 了 该 任务 ， 也 就 是 直接 结束 了 它 。 换 句 话 
说 ， 内 核 接 收 到 Ctrl+C 后 ， 并 不 是 必须 就 结束 当前 任 
务 ， 而 是 可 以 由 任务 来 选择 该 如 何 响应 这 个 信号 的 ， 
但 是 多 数 任务 都 使 用 了 内 核 默 认 处 理 方式 。 

进程 可 以 调用 glibc 库 提供 的 用 户 态 函数 signal0 或 
者 sigaction0 函 数 来 向 内 核 注册 自己 的 信号 处 理 函 数 ， 
比如 signal(SIGINT, my sig handler), ЗЕН УІН 
my_sig_handler0) 函 数 注册 到 内 核对 应 数据 结构 中 ， 后 
续 如 果 内 核 再 次 产生 SIGINT 信 号 ， 则 会 调用 my_sig_ 
handler() 函 数 执行 ， 执 行 完 后 ， 再 返回 到 进程 的 断 点 
处 继续 执行 。 用 户 程 序 可 以 选择 性 忽略 某 个 信号 ， 
signal(SIGINT, SIG_IGN) 中 的 SIG_IGN 参 数 表示 通知 
内 核 忽 略 对 SIGINT 信 号 的 处 理 ， 这 样 在 程序 运行 时 用 
户 按 下 Ctrl+C 组 合 键 就 不 会 有 反应 了 。signal(SIGINT, 
SIG_DFL) 中 的 SIG_DFL 参 数 则 标识 通知 内 核 使 用 内 
核 默认 的 处 理 方法 处 理 SIGINT 信 和 号。 如 果 应 用 程序 
注册 了 自 定义 的 信号 处 理 函数 ， 那 么 对 应 信号 到 来 
时 ， 内 核 会 调用 该 函数 执行 ， 此 时 称 为 “该 信号 被 捕 
获 ”， 也 就 是 说 被 应 用 程序 给 捞 上 来 处 理 ， 而 不 是 
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被 内 核 中 的 默认 程序 暗自 处 理 了 。 注 意 ，SIGKILL 和 
SIGSTOP 这 两 个 信号 无 法 自 定义 处 理 ， 必 须 让 内 核 默 
认 处 理 。 此 外 ， 不 能 给 进程 0 (idle 进 程 ) 发 送信 号 ， 
因为 进程 0 永 不 消逝 。 

前 文中 提 到 过 父 进程 如 果 不 调用 wait/waitpid 函 数 
阻塞 等 待 子 进程 退出 ， 而 是 运行 其 他 代码 ， 将 与 子 进 
程 彻底 失 联 。 那 么 后 续 它 如 何 获知 子 进程 已 经 退出 这 
件 事情 ? 就 是 利用 SIGCHLD (〈 子 进程 退出 ) 信号。 
但 是 子 进程 退出 之 后 ， 内 核 针对 该 信号 的 默认 处 理 方 
式 是 忽略 它 ， 不 做 任何 处 理 。 所 以 父 进程 需要 显 式 地 
调用 signal0 函 数 来 注册 自己 用 于 处 理子 进程 退出 的 函 
数 ， 在 函数 中 可 以 调用 waitO) 函 数 来 处 理 对 应 的 僵尸 
子 进程 ， 处 理 完 后 会 返回 父 进程 继续 执行 。 

所 以 ， 信 号 就 是 一 种 用 于 内 核 向 进程 通告 某 种 
事件 发 生 的 载体 ， 每 一 种 信号 在 物理 上 其 实 就 是 一 个 
数字 编码 。 如 图 10-98 所 示 为 Linux 下 部 分 信号 一 览 。 
图 左 侧 为 Linux 系 统 使 用 的 31 种 信号 及 其 含义 和 默认 
处 理 方式 。 系 统 中 的 一 些 关键 事件 都 会 触发 信号 的 产 
生 ， 有 些 信号 会 被 传递 给 当前 正在 运行 的 进程 ， 而 有 
些 则 需要 传递 给 其 他 进程 。 比 如 SIGALRM 信 号 是 定 
时 器 产生 的 到 时 中 断 而 触发 内 核 产生 的 一 种 信号 ， 当 
前 正在 运行 的 进程 可 能 并 没有 设 定 过 这 个 定时 器 ， 而 
是 被 其 他 进程 设 定 的 ， 而 对 方 此 时 却 在 休眠 中 。 所 以 
内 核 触发 这 个 信号 之 后 ， 需 要 判断 是 谁 设 定 的 定时 
器 ， 然 后 把 信号 传递 给 对 方 ( 写 入 对 方 的 task_struct 
结构 体 对 应 字段 ) 。 比 如 SISILL (执行 了 非法 机 器 
指令 ) ~ SIGSEGV (访问 越界 ) 、SIGSYS (非法 的 
系统 调用 ) 这 些 信号 都 是 在 当前 进程 正在 运行 时 产 
生 的 ， 那 么 就 将 其 写 入 当前 进程 的 task_struct 对 应 字 
段 。 有 些 信 号 是 发 送 给 特定 群体 的 ， 比 如 SIGHUP 信 
号 ， 当 父 进程 退出 后 ， 内 核 会 向 它 的 所 有 子 进 程 发 送 
该 信号 ， 而 如 果子 进程 退出 ， 则 内 核 向 其 父 进程 发 送 
SIGCHLD 信 号 。 至 于 信和 号 的 后 续 处 理 流程 ， 下 文 将 
介绍 。 

可 以 看 出 大 多 数 信号 的 默认 处 理 方式 要 么 是 终止 
该 进程 ， 要 么 是 Dump 将 进程 虚拟 地 址 空间 中 的 数 
据 全 部 复制 到 硬盘 以 供 分 析 用 ， 一 般 是 严重 非法 操作 
才 会 产生 这 类 信号 ) 当前 进程 ， 也 有 一 些 Ignor 或 者 
Stop (暂停 执行 ) 的 。 对 于 被 Stop 的 任务 ， 可 以 使 用 
SIGCONT 继 续 执行 它 。 

图 中 间 上 部 为 Linux 下 的 全 部 64 个 信号 ，Linux 只 
使 用 前 31 个 ， 其 他 的 属于 实时 信号 ， 实 时 信号 如 果 重 
复 产 生 多 次 ， 则 每 次 都 会 记录 并 依次 处 理 ， 而 前 31 个 
属于 非 实时 信号 ， 重 复发 送 的 同一 种 非 实时 信号 会 
被 丢弃 。 图 中 间 下 部 为 可 供应 用 程序 调用 的 关于 信号 
处 理 方面 的 用 户 态 函 数 一 览 。 其 中 ，xxkill0 类 函数 用 
于 某 个 进程 向 其 他 进程 发 送 任意 编码 的 信号 ， 有 些 信 
号 需要 系统 管理 员 权限 才 能 发 送 ， 不 要 被 kill 这 个 词 
所 迷惑 ， 以 为 执行 了 它 就 意味 着 杀 掉 对 方 进程 。 实 际 
上 ，Linux 下 的 Kill 命 令 的 语法 是 : КШ 参数 PID kill 
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-9 1024 的 意思 是 向 PID 为 1024 的 进程 发 送 
编码 为 9 的 信号 (SIGKILL) , kill -2 1024 
的 效果 等 价 于 按 Ctrl+C 组 合 键 ， 而 kill 命 令 
对 应 的 程序 实际 上 就 是 调用 了 xxkill0 类 函 
数 ， 这 些 函数 底层 也 都 是 sys_kill0 系 统 调 
用 ， 通 知 内 核 向 哪个 PID 对 应 的 进程 发 送 
什么 信号 罢了 。signal0 以 及 sigaction() 函 
数 则 是 通知 内 核 注册 一 个 面 对 当前 进程 的 
信号 处 理 函 数 ， 这 两 个 函数 底层 则 对 应 了 
sys_signal() 或 者 sys_signalfd() 系 统 调用 。 
以 rt 开头 的 函数 处 理 的 则 是 实时 信号 。 

图 中 右 侧 为 两 个 基于 信号 处 理 机 制 
编写 的 示意 程序 。 上 面 的 程序 中 编写 了 
一 个 用 于 处 理 SIGINT 信 号 的 函数 my_ 
handler()， 有 趣 的 是 ， 该 函数 首先 输出 了 
一 名 话 ， 然 后 将 SIGINT 信 号 的 处 理 方式 
改 为 默认 值 〈 内 核 自行 处 理 ) 。 在 main 主 
程序 中 ， 首 先 将 刚才 写 好 的 my_handler() 
注册 为 SIGINT 的 处 理 函 数 ， 然 后 循环 不 
停 地 输出 句子 。 程 序 运 行 时 ， 一 旦 用 户 按 
下 CtrltC 组 合 键 ， 内 核 产生 SIGINT 信 号 ， 
并 调用 my_handler0， 输 出 “What are you 
doing! Don”t!” 提 示 用 户 不 要 乱 按 键 或 者 
误 按 键 ， 输 出 完 这 句 之 后 ， 信 号 处 理 函 数 
变 为 内 核 默认 方式 ， 这 意味 着 ， 如 果 用 户 
再 次 按键 将 会 终止 程序 。my_handler() 执 
行 完毕 之 后 将 会 返回 到 main() 中 继续 执行 
进入 循环 ， 这 时 再 按 一 次 Ctrl+C 组 合 键 ， 
则 会 走 默 认 流程 终止 程序 。 

图 中 右 侧 下 方 的 程序 则 是 先 注册 了 
一 个 用 于 处 理 SIGALRM 信 号 的 处 理 函 
数 ， 该 信号 会 在 内 核定 时 器 到 达 指 定时 
间 时 触发 给 设 定 了 该 定时 器 的 进程 。 注 
册 完 信号 处 理 函数 之 后 ， 程 序 继续 调用 
了 alarm(4) 向 内 核 申 请 了 一 个 4 秒 的 定时 器 
(内 核 会 通过 时 钟 硬件 模块 的 驱动 程序 
将 4 秒 这 个 时 间 写 入 到 时 钟 硬件 对 应 寄存 
器 中 并 开启 倒计时 ) ， 该 函数 底层 其 实 
执行 了 sys_alarm() 系 统 调 用 ， 然 后 输出 一 
旬 话 ， 随 即 调用 了 pause()， 该 函数 底层 
对 应 了 sys_pause() 系 统 调用 ， 该 系统 调用 
会 让 内 核 将 当前 进程 状态 设置 为 TASK_ 
INTERRUPTIBLE， 不 再 继续 执行 ， 进 
入 阻塞 / 挂 起 状态 ， 但 是 内 核 当 收 到 针对 
该 任务 的 信号 后 可 以 将 其 唤醒 (状态 改 
为 TASK_RUNNING 即 可 唤醒 它 ) 。 当 
定时 器 计时 结束 后 触发 中 断 ，CPU 执 行 
对 应 的 中 断 处 理 函 数 ， 在 这 个 函数 的 后 
续 调用 链条 的 后 续 函 数 中 ， 会 找到 当时 $$9509999995959 
设 定 了 这 个 定时 器 的 进程 ， 将 SIGALRM есептеесес СЕБЕ 


Don't! 


tsh 
Long~Ger~Li~Ger~Long~~ 


alexis@HostA:-$ ./test.sh 


1 am sleeping 22222! 
Оор», | got the SIGALRMI 


Now | am awake, bye! 


root@HostA:~$ 


root@HostA:~$ „Ле 

What are you doing! 

Long~Ger~Li~Ger~Long~~ 
‘ong~Ger~Li~Ger~Long~~\n"); Long~Ger~Li~Ger~Long~~ 
d rOOtO HostA:- $ 


Long-Ger-Li-- 


printf( "What are you doing! Don't!/n"); 
(void) signal(SIGINT SIG DFL); 
printf("Oops, | got the SIGALRMI/n"); 
sleeping zzzzz!/n"); 
printf(Now | am awake,byel/n"); 


(void) signal(SIGINT, my, handler); 
return EXIT SUCCESS; 


void ту hanlder( ) 
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void wake up() 
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Similar to rt_sigsuspend( ) 
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图 10-98 各 种 信号 一 览 及 利用 捕获 信号 编程 


信和 号 写 入 到 该 进程 的 task_struct 结 构 体 中 对 应 字段 

(具体 见 下 文 ) ， 然 后 判断 该 进程 当前 为 TASK _ 
INTERRUPTIBLE， 所 以 可 被 信号 唤醒 ， 于 是 将 其 状 
态 改 为 TASK_RUNNING 即 可 。 剩 下 的 交 给 schedule0 函 
数 继续 触发 ， 当 调度 时 机 再 次 到 来 时 ，schedule0 有 一 定 
概率 选 定 该 进程 继续 执行 ， 在 ret_ йош interupt 宏 中 ， 内 
核 代码 会 先 使 用 SIGALRM 信 号 对 应 的 处 理 函 数 处 理 该 
信号 ， 本 例 中 为 输出 一 名 话 ， 然 后 返回 该 进程 的 用 户 态 
代码 继续 运行 。 


在 Linux 下 ， 当 shell 以 前 台 方 式 执 行 了 某 个 运 
行 时 间 较 长 的 命令 ， 则 shell 会 卡 住 ( 因为 shell 调 
用 了 wait() 来 等 待 该 子 进程 退出 后 自己 才能 继续 执 
Яя), 屏幕 上 输出 的 内 容 完 全 取决 于 该 命令 的 程序 
输出 ， 如 果 该 命令 不 输出 任何 内 容 ， 则 shell 就 像 在 
屏幕 上 卡 住 一 样 。 此 时 可 以 按 Ctrl+Z 组 合 键 将 前 台 
任务 转 入 后 台 并 暂停 执行 。 在 这 个 过 程 中 ， 首 先 ， 
热 键 导致 中 断 ， 该 热 键 会 导致 内 核发 出 SIGTSTP/ 
SIGSTOP 信 号 给 当前 进程 ， 内 核 根据 current 变 量 
中 存储 的 指针 找到 当前 任务 task_struct， 将 该 信号 
写 入 其 中 对 应 字段 ， 并 将 该 任务 的 状态 改 为 TASK_ 
RUNNING ( 虽然 中 断 前 该 任务 已 经 是 RUNNING 状 
态 ) ， 在 中 断 返回 之 前 ， 系 统 可 能 会 调用 schedule0) 
切换 到 其 他 任务 执行 ， 而 如 果 恰 好 调度 器 决定 不 切 
换 ， 还 是 运行 该 任务 ， 那 么 在 ret_from_interrupt 宏 
中 ， 会 触发 do_signal， 调 用 默认 的 SIGTSTP 处 理 函 
数 执行 ， 执 行 结果 就 是 将 当前 进程 设置 为 TASK - 
STOPPED 状 态 ， 并 执行 scheduleO 再 次 尝试 切换 到 
其 他 任务 执行 。 而 该 进程 被 STOP， 这 个 事件 又 会 
再 次 触发 一 个 新 事件 ， 那 就 是 SIGCHLD ( 当 子 进 
程 退出 、STOP 时 发 出 ) 信号 ， 该 信号 会 被 发 给 该 
进程 的 父 进程 ， 这 里 就 是 shell 进 程 ， 并 唤醒 它 继 
续 运 行 (shell 当 时 调用 wait() 后 内 核 会 将 它 设 置 为 
TASK INTERRUPTIBLE 状 态 ， 所 以 内 核 可 以 仅仅 
由 于 有 信和 号 传递 给 它 而 唤醒 它 ) ， 当 然 ， 运 行 shell 
的 用 户 态 部 分 之 前 ， 还 需要 进入 ret_from_ interrupt 
宏 来 处 理 善后 ， 其 中 一 步 就 是 处 理 信 号 ， 也 就 是 
说 ， 从 中 断 上 下 文 或 者 系统 调用 等 内 核 态 返回 到 用 
户 态 之 前 ， 检 查 和 处 理 信 号 为 必需 的 一 步 。 不 幸 的 
是 ， 内 核 针 对 SIGCHLD 信 号 的 默认 处 理 函 数 的 行 
为 是 什么 都 不 做 ， 这 样 ，shell 返 回 用 户 态 继 续 运 行 
后 ， 并 不 会 发 现 它 的 子 进程 有 一 个 被 STOP 了 。 此 
时 ， 可 以 执行 名 (foreground ) 命令 将 该 后 台 任务 继 
续 搬 到 前 台 运 行 。 值 得 一 提 的 是 ，fg 是 shell 的 一 个 
内 建 命令 ( 相 比 之 下 cp、dd、rm 等 都 是 外 部 命令 ， 
每 个 命令 对 应 了 一 个 独立 的 程序 文件 ) ， 而 并 不 是 
一 个 程序 ， 也 就 是 shell 程 序 收 到 fe 命令 之 后 ， 并 不 
会 fork 一 个 fe 进程， 而 是 触发 了 自己 内 部 的 代码 流 
程 。 fg 命令 执行 后 ，shell 会 发 送 SIGCONT 信 号 给 
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刚才 STOPPED 的 任务 ， 这 个 信号 会 触发 该 任务 被 
唤醒 继续 执行 ， 同 时 shell 继 续 调用 wait() 进 入 阻塞 
等 待 该 进程 退出 ， 所 以 shell 继 续 卡 住 ， 现 在 前 台 只 
剩 下 之 前 被 STOPPED 的 任务 继续 运行 ， 直 到 它 退 
出 ， 或 者 再 次 被 Ctrl+Z 给 暂停 后 再 次 退出 到 shell。 

而 如 果 执 行 了 bg (background) 命令 ， 则 shell 只 负 
责 发 送 SIGCONT 信 号 给 该 STOPPED 的 任务 ， 而 不 
调用 waitO ， 此 时 shell 继 续 运行 (光标 继续 闪烁 ) ， 

而 那个 STOPPED 的 任务 现在 在 后 台 运 行 。 其 他 相 
关 命 令 和 语法 还 有 : jobs， 显 示 出 当前 暂停 的 进 
Ж; bg N， 将 第 N 个 任务 在 后 台 继续 运行 ; fg N, 

将 第 N 个 任务 转 到 前 台 运 行 ; bg/fg 不 带 N 时 表示 
对 最 后 一 个 进程 执行 对 应 的 操作 ; Ctrl+\ 组 合 键 会 
触发 SIGQUIT 信 号 发 送 给 当前 进程 ， 默 认 处 理 方式 
是 终止 对 应 进程 。 不 带 参 数 的 Kill PID 命 令 会 发 出 
SIGTERM 信 和 号 而 终止 对 方 进程 。 


冬瓜 哥 猜 测 看 到 这 里 你 一 定 有 个 疑问 ，“ 内 核 向 
进程 发 出 信号 ”的 具体 物理 过 程 是 怎样 的 ? 信号 编码 
去 了 哪里 ?进程 又 是 如 何 获取 这 个 编码 并 调用 默认 的 
处 理 函 数 或 者 自 定义 注册 的 处 理 函 数 执行 的 ? 这 个 过 
程 其 实在 上 方 的 提示 框 里 已 经 有 所 介绍 ， 下 面 给 出 更 
具体 的 介绍 。 

如 图 10-99 所 示 ， 在 每 个 任务 的 task_struct 中 ， 会 
有 几 个 与 信号 处 理 相关 的 关键 字段 ， 这 些 字 段 的 具体 
定义 如 图 10-100 所 示 。 

ЖЖ ВНЕ, 72 我 们 前 文中 提 到 过 
程序 需要 一 大 堆 的 各 式 各 样 种 类 的 表格 (数据 结构 ) 
来 记录 各 种 状态 ， 而 处 理 这 些 表 格 中 的 数据 ， 或 者 根 
据 表 格 中 的 数据 进行 判断 、 运 算 的 程序 代码 就 是 函数 
中 的 那些 具体 语句 了 。 想 象 一 下 你 是 某 个 机 构 的 操作 
员 ， 操 作 大 量 复杂 事务 ， 你 一 定 也 需要 维护 一 堆 追 踪 
表 ， 然 后 顺藤摸瓜 按 图 索 怠 ， 还 时 不 时 地 要 去 更 新 表 
格 ， 然 后 再 按照 更 新 后 的 表格 继续 处 理 。 程 序 也 是 这 
样 做 的 ， 你 用 神经 元 来 计算 ， 而 程序 用 门 电路 来 算 而 
0; 你 用 白 纸 来 存 表 格 ， 而 程序 用 DDR RAM 来 存 表格 
而 已 。 正 因 如 此 ， 程 序 可 以 帮 你 完成 之 前 用 人 脑 计算 
的 事务 。 

下 面 就 介绍 一 下 task_struct 中 用 于 信和 号 处 理 的 几 
个 字段 。 

signal FE: 该 字段 指向 了 一 个 struct signal struct 
结构 体 。 该 结构 体 中 有 个 关键 字段 是 wait_chldexit， 
这 是 一 个 指针 ， 指 向 了 一 个 等 待 队列 ， 如 果 该 进程 调 
用 了 waitO/waitpid0 的 话 ， 将 会 被 放 入 这 个 等 待 队列 
中 ， 内 核 产生 子 进 程 退 出 信号 后 会 从 该 队列 中 找到 对 
应 的 进程 然后 唤醒 ， 关 于 等 待 队列 和 唤醒 的 机 制 见 下 
一 节 。signal 结 构 体 中 还 存放 了 一 些 与 任务 组 相关 的 
信号 处 理 信息 ， 不 多 介绍 ， 有 兴趣 可 自行 研究 任务 组 
相关 知识 。 
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sighand 字 段 : 这 个 字段 中 包含 一 个 action[64] 
数组 ， 其 中 的 每 个 元 素 中 又 包含 一 个 指针 ， 其 指向 
sigaction 结 构 体 ， 一 共 指 向 了 64 个 sigaction 结 构 体 。 
在 sigaction 结 构 体 中 又 有 一 项 sa_handler 字 段 ， 该 字 
段 用 于 记录 针对 本 sigaction 表 示 的 信号 ID 的 处 理 函数 
指针 ， 如 果 没 有 针对 该 ID 注册 自 定 义 函 数 ， 那 么 sa_ 
handler 字 段 被 置 为 全 0〈 表 示 SIG_DFL) 从 而 使 用 默 
认 的 内 核 处 理 函数 处 理 该 信号 。sigaction 中 的 sa_flags 
字段 记录 了 一 些 具 体 处 理 信号 时 的 方法 参数 ， 其 中 ， 
SA_ONSHOT 这 个 flag 值 得 一 提 ， 如 果 该 tag 被 设置 为 
1， 那 么 程序 使 用 signalO 函 数 注 册 的 信号 处 理 函数 只 
会 在 第 一 次 接收 到 信号 时 被 调用 ， 后 续 再 次 接收 到 同 
样 的 信号 会 转 为 使 用 默认 处 理 方式 处 理 。 

blocked В. 该 字段 为 一 个 位 图 ， 记 录 哪些 信号 
被 进程 暂时 屏蔽 而 暂 不 处 理 。 

pending 字 段 ， 该 字段 指向 一 个 链表 ， 链 表 中 每 
一 项 记录 了 所 有 传递 给 该 进程 的 信号 ID 和 其 他 细节 信 
息 。 由 于 内 核 或 者 其 他 进程 可 以 接连 传递 多 个 相同 或 
者 不 同 种 类 的 信号 ， 所 有 信和 号 在 这 里 排队 ，pending 
字段 使 用 一 个 链表 的 首尾 指针 向 外 指出 去 一 个 双向 
链表 ， 将 多 个 sigqueue 结 构 体 串 接 起 来 ， 每 当 内 核 需 
要 向 该 进程 传递 一 个 新 信号 ， 就 新 生成 一 个 sigqueue 
ILL ILLOPC Illegal opcode. 
ILL ILLOPN Illegal operand. 
ILL ILLADR Illegal addressing mode. 
ILL ILLTRP Illegal trap. 
ILL PRVOPC Privileged opcode. 
ILL PRVREG Privileged register. 
ILL COPROC Coprocessor error. 
ILL BADSTK Internal stack error. 
FPE INTDIV Integer divide by zero. 
FPE INTOVF Integer overflow. 
FPE FLTDIV Floating-point divide by zero. 
FPE FLTOVF Floating-point overflow. 
FPE FLTUND Floating-point underflow. 
FPE FLTRES Floating-point inexact result. 
FPE FLTINV Floating-point invalid operation. 
FPE FLTSUB Subscript out of range. 


SEGV MAPERR Address not mapped to object. 
SEGV ACCERR Invalid permissions for mapped object. 
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结构 体 并 链接 到 这 个 双向 链表 中 。sigqueue 结 构 体 中 
包含 与 其 他 sigqueue 结 构 体 相互 链接 的 锚 点 ， 也 就 是 
prev 和 next 指 针 ， 这 两 个 指针 被 抽象 为 struct list head 
结构 体 ， 这 就 是 sigqueue 结 构 体 中 的 list 字 段 ， 它 是 一 
个 锚 点 。sigqueue 中 的 info 字 段 记录 了 接收 到 的 信号 的 
全 部 信息 ，info 字 段 是 一 个 指针 ， 它 指向 了 一 个 siginfo_ 
{类 型 的 结构 体 ， 该 结构 体 中 又 记录 了 信号 的 编码 ID、 
导致 这 个 信号 被 发 出 的 错误 码 〈 见 图 10-101) 、 谁 发 
出 了 这 个 信号 。 

很 多 表格 中 都 有 lock 字 段 ， 这 就 是 供 在 多 线程 环 
境 下 保证 数据 的 consistency 的 手段 ， 多 个 线程 可 能 会 
同时 发 起 对 这 些 表格 的 变更 ， 所 以 需要 使 用 互 斥 锁 来 
保障 一 致 性 ， 所 有 线程 先 取得 该 锁 ， 才 能 继续 访问 表 
格 。 互 斥 锁 的 基本 原理 在 第 6 章 中 已 经 有 所 介绍 。 这 
些 表 格 中 可 能 存在 相互 嵌 套 指向 ， 这 些 都 是 为 了 程序 
检索 表格 时 候 更 加 方便 和 灵活 。 

数据 结构 介绍 完了 ， 我 们 就 需要 考察 信号 产生 、 
发 送 、 处 理 的 具体 流程 控制 了 ， 这 些 流 程 被 写 到 具体 
函数 代码 中 ， 在 代码 中 引用 这 些 表格 中 的 数值 ， 并 做 
判断 ， 比 如 if(table->item.su 位 em 一 xxx) do0。 如 图 10- 
102 所 示 为 Linux 内 核 与 信号 处 理 有 关 的 一 部 分 函数 一 
览 ， 这 些 函数 都 是 内 核 函 数 ， 用 户 态 无 法 直接 调用 。 


SEGV BNDERR (since Linux 3.19) Failed address bound checks. 
SEGV PKUERR (since Linux 4.6) Access was denied by memory protection keys. 


BUS ADRALN Invalid address alignment. 
BUS ADRERR Nonexistent physical address. 
BUS OBJERR Object-specific hardware error. 
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BUS MCEERR AR (2.6.32 after) Hardware memory error consumed оп a machine check; action required. 
BUS MCEERR AO (2.6.32 after) Hardware memory error detected in process but not con- sumed; action optional. 


TRAP BRKPT Process breakpoint. 
TRAP TRACE Process trace trap. 


TRAP BRANCH (since Linux 2.4, IA64 only)) Process taken branch trap. 
TRAP HWBKPT (since Linux 2.4, IA64 only)) Hardware breakpoint/watchpoint. 


CLD EXITED Child has exited. 

CLD KILLED Child was killed. 

CLD DUMPED Child terminated abnormally. 
CLD TRAPPED Traced child has trapped. 
CLD STOPPED Child has stopped. 


CLD CONTINUED (since Linux 2.6.9) Stopped child has continued. 


POLL IN Data input available. 

POLL OUT Output buffers available. 
POLL MSG Input message available. 

POLL ERR І/О error. 

POLL PRI High priority input available. 
POLL HUP Device disconnected. 


图 10-101 伴随 信号 产生 的 错误 码 一 览 
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而 用 户 态 的 一 些 信 号 相关 函数 最 终 其 实 都 是 执行 了 
sys pause. sys nanosleep. sys alarm, sys signal. sys_ 
signal 人 等 系统 调用 ， 这 些 系 统 调用 函数 和 表 中 列 出 的 
内 核 函数 都 需要 多 多 少 少 地 去 参考 以 及 更 新 上 文中 介 
绍 过 的 那些 数据 结构 ， 这 些 数据 结构 形成 了 一 个 信息 
集散 地 ， 供 多 个 不 同 来 源 、 不 同事 件 触发 执行 的 函数 
之 间 相 互通 报 和 获取 信息 ， 产 生 后 续 逻 辑 。 至 于 表 中 
的 这 些 内 核 函 数 就 不 做 具体 介绍 了 。 

再 来 看 看 信号 产生 的 源头 和 处 理 的 过 程 。 多 种 不 
同事 件 可 能 会 触发 不 同 的 信号 。 就 拿 SIGCHLD 子 进 
程 退出 /暂停 信号 来 讲 ， 如 果子 进程 执行 了 exit0 系 统 
调用 ， 那 么 有 理由 推测 sys_exit0 函 数 链 的 下 游 一 定 有 
某 处 会 将 SIGCHLD 信 号 传递 给 该 子 进程 的 父 进 程 。 
为 了 证 实 这 一 点 ， 我 们 亲自 追踪 一 下 2.6.39.4 版 本 下 
的 sys_exit()， 发 现 它 的 关键 调用 路 径 为 : sys_exit() 
-> do exit() -> exit notify -> do notify parent() -> __ 
wake_up_parent0 。 我 们 深入 到 do_notify parent A šB 
一 探究 竟 ， 如 图 10-103 所 示 。 

该 函数 的 参数 之 一 就 是 sig， 在 do_exit() 的 下 游 
调用 此 函数 时 ，sig 会 被 赋值 为 SIGCHLD。 该 函数 首 
先 声明 了 一 个 名 为 info 的 siginfo 样 式 的 结构 体 ( 也 就 
是 图 10-100 左 下 角 的 siginfo_t 样 式 的 结构 体 ， 不 同 版 
本 的 Linux 的 命名 可 能 有 些 区别 ) ， 然 后 声明 了 一 个 
名 为 psig 的 sighand_struct 样 式 的 结构 体 ， 然 后 开始 使 
用 info.xxxx=xxxx 语 句 来 填充 info 结 构 体 中 对 应 的 字 
段 。 然 后 ， 针 对 psig 结 构 体 ， 使 用 psig=tsk->parent- 
>sighand 语 句 ， 将 当前 进程 Сөк) 的 task_struct 结 构 体 
中 的 parent 字 段 所 指向 的 当前 进程 父 进程 的 task_struct 
结构 体 中 的 sighand 指 针 赋 值 给 psig， 这 样 ，psig 在 后 
续 代 码 中 就 指向 了 父 进程 的 task_struct 中 的 sighand 字 
段 ， 后 续 的 一 系列 psig->xxxx 形 式 引 用 访问 的 都 是 父 
进程 的 task_struct 中 对 应 的 信息 。 

if( “task ptrace(tsk) && sig = SIGCHLD && 
( psig->action[SIGCHLD-1].sa.sa_ handler == SIG _ 
IGN |  (psig-"action[SIGCHLD-1].sa.sa flags & 
SA NOCLDWAIT) ) ”) 是 一 个 复杂 的 逻辑 判断 ， 
有 & 为 按 位 与 ，&& 为 逻辑 与 ，|| 为 逻辑 或 。 我 们 假设 


int do notify parent(struct task struct *tsk, int sig) 
$ 


struct siginfo info; 
unsigned long flags; 
struct sighand_struct *psig; 
int ret = sig; 
BUG_ON(sig == -1); 
BUG ON(task is stopped or traced(tsk)); 
BUG ON(!task ptrace(tsk) && 
(tsk-»group leader |= tsk || !thread group. enpty(tsk))); 


info.si еггпо = 0; 
ad 


оск(); 
info. si pid = task_pid_nr_ns(tsk, tsk->parent->nsproxy->pid_ns); 


info.si uid = — task cred(tsk)-»uid; 

rcu read unlock); 

info.si utime - cputime to clock t(cputime add(tsk-»utime, 
tsk-»signal-»utime)); 

info.si stime - cputime to clock t(cputime add(tsk-»stime, 
tsk-»signal-»stime)); 

info.si status = tsk-»exit code 8 @x7f; 


у « 


sig=--SIGCHLD 以 及 父 进程 的 针对 SIGCHLD 信 号 的 
处 理 函数 ==SIG_IGN 这 两 个 条 件 都 为 真一 般 情况 
F) ， 那 么 此 时 只 要 SA_NOCLDWAIT 这 个 sa.flags 
见 上 文 数据 结构 ) 被 置 1， 就 可 能 导致 exit_signal 

为 -1 (表示 DEATH REAP) ， 同 时 还 会 导致 sig 被 赋 
值 为 -1， 进 一 步 导 致 if (valid signal(sig) && sig > 0) 
的 判断 为 假 ， 而 导致 不 执行 ”group_send sig info() 
函数 ， 而 正 是 这 个 函数 负责 发 送信 号 。 而 最 后 的 _ 
wake_up_parent0 函 数 是 无 论 如 何 都 要 被 执行 的 ， 也 就 
是 从 wait_chldexit 等 待 队 列 中 唤醒 父 进程 。 

do_notify_parent() 向 其 上 游 返 回 exit_signal 或 者 被 
传 入 的 原始 参数 sig。 我 们 假设 exit_signal=-1。 其 上 
游 的 exit notify0 函 数 使 用 signal = do_notify_parent0) 来 接收 
返回 值 存 入 signal 变 量 中， 并 在 执行 完 do_notify_parentO) 
之 后 紧 接 着 就 是 tsk->exit_state = signal == DEATH_ 
REAP 7 EXIT DEAD : EXIT ZOMBIE 这 行 代码 ， 这 
旬 代 码 的 意思 是 ，tsk->exit_state 的 值 等 于 什么 ? ШЖ 
signal--DEATH REAP 则 等 于 EXIT_ DEAD， 否则 就 等 
于 EXIT_ZOMBIE， 按 照 假 设 ，exit_state 变 量 的 最 终 值 
为 EXIT DEAD。 而 exit_notify0 的 最 后 一 步 是 if (signal 
== DEATH REAP) release task(tsk), release task()/é 
真正 删除 进程 所 有 痕迹 的 函数 。 

上 述 整 个 逻辑 可 以 简要 描述 为 : 如 果 sa.flags 
中 的 SA_NOCLDWAIT 被 置 1， 就 不 向 父 进程 发 
送 SIGCHLD 信 号 ， 同 时 也 不 依赖 父 进程 的 wait/ 
waitpid() 函 数 的 处 理 ， 进 程 在 exit 时 会 被 自动 
release_task， 这 也 是 SA_NOCLDWAIT 控 制 位 的 含 
义 。 而 如 果 该 位 未 被 置 0， 则 上 述 那 个 复杂 的 if 判断 
为 假 ， 一 切 照旧 ，SIGCHLD 信 号 会 被 _ group_send_ 
sig_info() 发 出 给 父 进 程 ， 子 进程 也 不 会 被 release_ 
task()， 同 时 do_notify_parent0 的 返回 值 会 是 sig， 本 场 
景 下 也 就 是 SIGCHLD， 从 而 导致 exit_state 会 被 标记 为 
EXIT ZOMBIE. 

再 来 看 看 父 进程 是 如 何 接收 和 处 理子 进程 退出 信号 
的 。 父 进程 调用 waitwaitpid0 函 数 之 后 ， 进 入 到 do_wait0 
系统 调用 中 ， 如 图 10-104 所 示 。 该 函数 内 部 调用 add_ 
wait queue 宏 将 自己 加 入 wait_ chldexit 等 待 队列 中 ， 并 随 


if ce -»exit code & 0x80) 
info.si code = CLD DUMPED; 

else 4€ (tsk- »exit code & Ox7f) 
info.si code - CLD KILLED; 

else ( 
info.si code = CLD EXITED; 
info.si status - tsk-»exit code »» 8;) 

psig = tsk-»parent-»sighand; 

Spin lock irqsave(&psig-»siglock, flags); 

АҒ (!task ptrace(tsk) && sig == SIGCHLD 88 
(psig-»action[SIGCHLD-1].sa.sa handler == 516 IGN || 
(psig-»action[SIGCHLD-1] flags & SA NOCLDWAIT))) { 


ret = tsk-»exit signal = -1; | 
4f (psis- en HEED: 1]-sa.sa_handler == SIG IGN) 
sig = 


Y 
if (valid signal(sig) && sig » 
send sig info(sig, Binto, tsk->parent); 
wake up parent(tsk, tsk-»parent); 
Spin unlock irqrestore(&psig-»siglock, flags); 
return ret; 
end do notify parent » 


图 10-103 do notify рагеш0 9 


» 


Rwo-»child wait 


H 


if (!retval 88 !(wo-»wo flags & WNOHANG)) ( 
(TASK, RUNNING); 


Temove wait queue(&current-»signal-»wait chldexit, 


goto Тгереаї; } 


schedule(); 


if (!signal pending(current)) { 


retval - wo-»notask error; 
retval = -ERESTARTSYS; 
set current state 


return retval; 
end do wait » 


notask: 
end: 


у« 


(wo, tsk); 
(wo, tsk); 


WNOTHREAD) 


e do wait 


ОА UIT 


goto lend; 
retval = ptrac 
goto jend; 
if (wo-»wo flags & 
(&tasbList Lock); 


if (retval) 


break; 
] while each thread(current, tsk); 


retval - do wait thread 


if (retval) 


Өзі 
read unlock 


d 
图 10-104 фо ман 


d wait callback); 
&wo-»child wait); 


» 


->wait_chldexit 


current; 


entry(&wo->child_wait, chil 


*tsk; 
„private 
_queue(&current->signal 


(TASK_INTERRUPTIBLE) ; 


read lock(&tasklist Lock); 


tsk = current; 


= -ECHILD; 


| process wait(wo-»wo pid); 
ie func 
if ((wo-»wo type « PIDTYPE MAX) && 


‚ие 

wo-»child wait 
goto jnotask; 

set current state 


(!wo-»wo pid || hlist empty(Swo-»wo pid-»tasks[wo-»wo type]))) 


repeat: 


struct task struct 


int retval; 
trace sched 
init wait 
wo-»notask error 


static long Яо waiti(struct wait opts *wo) 
add wait 


t 
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后 调用 set_cumrent state0 将 自己 的 状态 设置 为 TASK INTERRUPTIBLE, 24 
它 后 续 主 动 或 者 被 动 被 切 出 去 之 后 将 会 进入 休眠 态 ， 内 核 只 在 有 针对 该 
任务 的 信号 时 才 会 唤醒 它 。 然 后 进入 关键 函数 do_ wait thread). 
do wait thread0 〇 函数 代码 见 图 10-105。 其 调用 了 宏 list_for each | 
entry 来 依次 扫描 本 进程 的 所 有 子 进程 〈 被 sibling 链 表 链 接 起 来 ) № 
次 执行 wait_consider task0O 函 数 ， 如 图 10-106 所 示 。 
tatic int do wait thread(struct wait opts "ис 
struct task struct *tsk) 


struct task struct *p; 
list for each entry(p, &tsk-»children, sibling) · 
int ret - wait consider task(wo, 0, p); 
if (ret) 
return ret; 


return 0; 


图 10-105 do wait thread0 函 数 代码 


static int Wait_consider_task(struct wait opts "мо, 
int ptrace, struct task struct *p) 
{ int ret = eligible child(wo, p); 
if (!ret) return ret; 
ret = security task wait(p); 
if (unlikely(ret < 0)) ( 
if (wo-»notask error) 
wo-»notask error = ret; 
return 0; } 
if (likely(!ptrace) 88 unlikely(task ptrace(p))) { 
wo-»notask error = Ө; 
return 0;) 
if (p-»exit state == EXIT DEAD) return Ө; 
if (p-»exit state == EXIT ZOMBIE 88 !delay, group, leader(p)) 
return wait task zombie(wo, p); 
wo-»notask error = 9; 
if (task stopped code(p, ptrace)) 
return wait task stopped(wo, ptrace, p); 
return wait task continued(wo, p); 
} « end wait consider task » 


10-106 wait consider task(0) 函 数 代码 


在 wait_consider_task() 函 数 中 可 以 看 到 针对 exit_notfy() 中 结果 的 
呼应 。if (p->exit_state == EXIT DEAD) return 0 表示 如 果 当 前 扫描 的 
这 个 子 进程 的 task_struct 中 的 exit_state 一 EXIT_DEAD， 这 里 可 能 会 有 
个 疑惑 ， 处 于 该 状态 的 进程 不 是 已 经 在 exit 时 被 release_task() 了 么 ? 
为 何 父 进程 还 会 扫描 到 已 经 被 删 掉 的 任务 的 结构 体 ? 这 里 面容 易 忽 略 
的 一 点 是 ， 当 进程 调用 exitO 时 ， 也 可 能 会 被 中 断 打 断 ， 比 如 如 果 在 
刚刚 设置 了 exit_state 变 量 之 后 的 一 瞬间 ， 该 进程 被 切 出 了 ， 而 它 的 父 
进程 可 能 被 唤醒 了 (比如 该 父 进程 的 其 他 子 进 程 向 它 发 出 了 信号 等 事 
件 触 发 ) ， 此 时 父 进程 就 会 顺带 发 现 “ 哦 ， 有 个 子 进程 正在 退出 ， 估 
计 是 被 临时 切 出 了 ， 才 留 下 这 个 task_struct 残 体 ， 我 可 以 不 予 理 会 ， 
下 次 它 在 被 重新 运行 时 ， 自 然 会 执行 到 release_task 这 一 步 从 而 被 销 
SR" , РЕН Tif (p->exit_state == EXIT DEAD) return 0 这 一 句 。 
而 如 果 判 断 为 ZOMNIE 状 态 ， 则 父 进程 一 定 要 出 手 处 理 ， 于 是 有 了 
if (p->exit_state == EXIT ZOMBIE && !delay group leader(p)) return 
wait task zombie(wo, р) 28). wait task zombie() А Zt fa tipi HO] Iv. 
的 子 进程 。 

之 后 ， 回 到 do_wait(O) 函 数 中 ，if (!signal pending(current)) 
(schedule(): goto repeat} 一 句 很 关键 ， 这 句 首先 判断 父 进程 当前 是 否 还 
有 没有 处 理 的 信号 ， 如 果 没 有 ， 就 执行 sshedule0 将 自己 切 出 ， 因 为 自 
己 实 在 是 没有 什么 事情 可 做 了 ， 自 己 上 一 次 被 内 核 唤醒 可 能 是 某 个 子 
进程 退出 〈 不 管 有 没有 发 送信 号 ， 都 会 执行 “wake_up_parent() 函 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


数 ) ， 所 以 自己 才 扫描 所 有 子 进 程 来 发 现 那些 需要 被 处 理 的 子 进 
程 残 体 并 处 理 。 在 被 切 出 后 ， 如 果 父 进程 再 次 被 唤醒 ， 则 其 执行 
goto repeat 这 句 ， 重 新 回 到 循环 开始 ， 重 新 再 将 自己 设置 为 TASK_ 
INTERRUPTIBLE 状 态 ， 并 扫描 有 哪些 子 进程 需要 处 理 ， 然 后 再 走 
到 让 (lsignal pending(current)) {зсһейше(); goto гереа!;) 228). 

如 果 有 信号 要 处 理 ， 那 么 上 述 判断 为 假 ， 会 走 到 标记 end 的 地 
方 ， 最 终 将 自己 从 等 待 队 列 中 移 除 ， 并 跳出 wait/waitpidO 函 数 ， 也 
就 是 执行 中 断 返回 操作 ， 执 行 syscall_exit 或 ret_from intr 宏 。 咽 ? 
好 像 没 有 看 到 在 哪 一 步 来 处 理 信号 啊 ! 答案 就 在 上 述 宏 中 。 如 图 
10-75 所 示 的 那些 宏 中 就 可 以 找到 它 ， 其 中 有 一 步 会 判断 在 返回 
到 用 户 态 之 前 是 否 还 有 其 他 工作 要 做 (work_pending 宏 做 这 个 判 
断 ) ， 而 处 理 信号 就 是 其 中 一 项 需要 完成 的 工作 。 也 就 是 说 ， 对 
进程 收 到 的 信号 的 处 理 ， 是 在 该 进程 从 内 核 态 返 回 到 用 户 态 前 夕 
才 会 做 的 ， 其 入 口 为 do_notify_resume() > do_signal()， 如 图 10-107 
所 示 。 

在 do_signal0 函 数 中 ， 先 调用 了 get_signal to_deliver0 来 获取 之 
前 被 写 入 到 本 进程 task_struct -> pending -> sigpending 链 表 中 的 信号 ， 然 
后 再 调用 handle_signal0 处 理 该 信号 。 在 get_signal to_deliver0 中 ， 主 体 
结构 为 一 个 for 大 循环 ， 其 内 部 调用 了 dequeue_signal()〔 该 函数 内 部 
会 顺便 判断 是 否 还 有 剩余 待 处 理 信 号 ， 如 果 没 有 ， 则 改变 thread_ 
info 中 的 flags 标 志 中 的 TIF_SIGPENDING 标 记 为 0 以 供 后 续 代码 
判断 使 用 ) ， 其 从 sigpending 链 表 中 取出 信号 (将 返回 值 赋值 给 
signr 变 量 ) ， 然 后 令 变 量 ka = &sighand->action[signr-1]， 也 就 是 
用 signr 去 寻 址 action[64] 数 组 找到 针对 signr 信 号 编码 的 处 理 函 数 指 
针 并 赋值 给 变量 ka; 然后 判断 如 果 该 指针 为 SIG_IGN， 则 什么 都 
不 做 (忽略 该 信号 ) 然后 继续 跳 到 for 循 环 头 部 从 队列 中 找 下 一 个 
信号 处 理 ， 如 果 不 为 SIG_IGN 但 也 不 为 SIG_DFL， 则 证 明 该 指针 
为 用 户 程序 当初 注册 的 自 定义 处 理 函 数 ， 则 将 ka 的 值 赋 给 return_ 
ka， 该 值 会 被 do_signal 函 数 后 续 作为 调用 handle_signal 时 的 参数 
之 一 传递 给 后 者 ;接着 顺带 检测 了 如 果 SA_ONESHOT (表示 一 
次 性 ) flag 被 设置 那么 将 处 理 函 数 重 新 变 为 SIGDFL， 然 后 break 跳 
出 整个 for 循 环 ， 最 后 将 signr 返 回 给 do_signal()。 如 果 signr 为 SIG_ 
DFL， 则 get_signal_to_deliver() 函 数 的 后 续 代 码 会 根据 不 同 的 signr 
值 做 相应 的 默认 处 理 。 可 以 看 到 get_signal_to_deliver() 函 数 每 次 只 
会 从 sigpending 队 列 中 挑 出 一 个 非 SIG_IGN 的 信号 来 处 理 ， 非 SIG_ 
DFL 的 不 碰 ， 返 回 do_signal() 继 续 处 理 ，SIG_DFL 的 则 由 自己 亲自 
处 理 。 

如 果 有 多 个 信号 等 待 处 理 ， 那 么 需要 多 次 调用 do_signal， 这 意 
味 着 多 次 从 内 核 态 返回 用 户 态 才 能 处 理 完 等 待 的 信号 ， 每 次 只 处 理 
一 个 ， 但 这 并 不 是 问题 ， 只 要 当前 进程 被 内 核 强行 切换 到 其 他 进 
程 ， 再 次 切 回来 时 就 会 继续 处 理 信 号 ， 这 个 轮转 过 程 是 很 快 的 ， 所 
以 不 会 发 生 按 Ctrl+C 组 合 键 后 长 时 间 得 不 到 处 理 的 情况 ， 如 图 10-108 
所 示 。 

如 果 sigpending 队 列 中 没有 有 效 的 信号 ， 或 者 一 些 SIG_DFL 的 
信号 都 已 经 被 处 理 完毕 ， 那 么 get_signal to_deliver() 返 回 的 signr 会 
为 0， 在 do_signal0) 中 会 判断 如 果 signr 大 于 0， 也 就 是 表示 有 效 的 信 
号 ， 才 会 继续 执行 handle_signal() 函 数 ， 否 则 不 会 调用 。 上 一 步 的 
signr、ka 以 及 其 他 参数 会 被 传 入 进来 。 凡 是 走 到 handle_signal0 这 
一 步 的 ， 一 定 是 那些 被 注册 了 自 定义 处 理 函 数 的 信号 ， 如 图 10-109 
所 示 。 


АҒ (syscall get nr(current, regs) >= 0) ( 


switch (syscall get error(current, regs)) ( 


case -ERESTARTNOHAND: 


-ERESTARTSYS : 


case 


gnal (struct pt regs *regs) 


static void do Si, 
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sigprocmask(SIG SETMASK, &current-»saved sigmask, NULL);) 


) « end do signal » 


图 10-107 до _signal0 函 数 代码 


int get_signal_to_deliver(siginfo t *info, 


Struct k sigaction *return ka, struct pt regs *regs, 
Void *cookie) 


{ struct sighand struct *sighand = current-»sighand; 
struct signal struct *signal - current-»signal; 


int 


signr; 


relock: 
try. to freeze(); 
spin lock irq(&sighand-»siglock); 
if (unlikely(signal-»flags & SIGNAL CLD MASK)) 4 


for 


( int 


int why = (signal->flags & SIGNAL STOP CONTINUED) 
? CLD CONTINUED : СПО STOPPED; 
signal-»flags &= -SIGNAL CLD MASK; 
why = tracehook notify jctl(why, CLD CONTINUED); 
spin unlock irq(&sighand-»siglock); 
if (why) ( 
read lock(&taskList Loch); 


do notify parent cldstop(current-»group leader, why); 


read unlock(&taskList Loch);) 
goto jrelock; 


бо 
struct k sigaction "Ка; 
signr = trac 
if (unlikely(signr < 0)) goto Trelock; 
if (unlikely(signr !- 0)) ka - return ka; 
else ( 
if (unlikely(signal-»group stop count > 0) 88 
do signal stop(0)) 
goto |гејоск; 
signr = dequeue signal(current, &current-»blocked, 
info); 
if (Isignr) break; 
if (signr !- SIGKILL) ( 
signr = ptrace sígnal(signr, info, 
regs, cookie); 
if (!signr) continue; 


ka = &sighand-»action[signr-1]; 


) 
trace signal deliver(signr, info, ka); 
if (ka-»sa.sa handler == SIG IGN) continue; 


signal(current, regs, info, return ka); 
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if (ka-»sa.sa handler != SIG DFL) { 
*return ka = *ka; 
if (ka-»sa.sa flags & SA ONESHOT) 
ka-»sa.sa handler - SIG DFL; 
break; 


} 
if (sig kernel ignore(signr)) continue; 
if (unlikely(signal-»flags & SIGNAL UNKILLABLE) && 
1sig kernel only(signr)) 
continue; 
if (sig kernel stop(signr)) ( 
if (signr != SIGSTOP) ( 
spin unlock irq(&sighand-»siglock); 
if (is current pgrp orphaned()) 
goto 1ге1оск; 
spin lock irq(&sighand-»siglock); 


у 

if (likely(do signal stop(info-»si signo))) ( 
/* 1t released the siglock. */ 
goto trelock; 


} 
continue; 


Spin unlock irq(&sighand-»siglock); 
current-»flags |= PF SIGNALED; 
if (sig kernel coredump(signr)) ( 
if (print fataL signals) 
print fatal signal(regs, info-»si signo); 
do coredump(info-»si signo, info-»si signo, regs); 


} 
do group exit(info-»si signo); 
} < end for j;j » 
spin unlock irq(&sighand-»siglock); 
return signr; 
} « end get signal to deliver » 


图 10-108 get signal to deliver) 15 


static int handle signal(unsigned long sig, siginfo t *info, 


struct k sigaction *ka, sigset t *oldset, 
struct pt regs *regs) 
ret; 


if (syscall get nr(current, regs) >= 0) { 


) 


1217, 


switch (syscall get error(current, regs)) ( 
case -ЕВЕЗТАВТ RESTARTBLOCK: 
case -ERESTARTNOHAND : 
regs-»ax = -EINTR; 
break; 
case -ERESTARTSYS: 
if (!(ka-»sa.sa flags & SA RESTART)) ( 
regs-»ax = -EINTR; 
break; 


+ 

case -ERESTARTNOINTR: 
regs->ax = regs->orig_ax; 
герз-сір -= 2; 
break; 


? 


Ж 


if (unlikely(regs-»flags 8 X86 EFLAGS TF) 88 
likely(test and clear thread flag(TIF FORCED TF))) 
regs-»flags 8- -X86 EFLAGS TF; 

ret = setup rt frame(sig, ka, info, oldset, regs); 

if (ret) return ret; 


#ifdef CONFIG X86 64 


set fs(USER DS); 


#endif 


regs->flags &= ~X86_EFLAGS_DF; 

regs->flags &= -X86 EFLAGS TF; 

spin lock irq(&current-»sighand-»siglock); 

sigorsets(&current-»blocked, &current-»blocked, &ka-»sa.sa mask); 

if (!(ka-»sa.sa flags & SA NODEFER)) 
sigaddset(&current-»blocked, sig); 

recalc sigpending(); 

spin unlock irq(&current-»sighand-»siglock); 

tracehook signal handler(sig, info, ka, regs, 

test thread flag(TIF SINGLESTEP)); 
return 9; 
end handle signal » 


图 10-109 handle signal0 函 数 代码 


由 于 用 户 自 定义 的 信号 处 理 函 数 必须 在 用 户 空 间 
而 必须 不 能 在 内 核 空间 运行 ， 否 则 用 户 态 程序 


使 用 pt_regs 结 构 体 来 描述 和 访问 。 内 核 的 处 理 程序 在 
运行 时 会 发 生 内 核 函 数 调 用 ， 也 会 使 用 到 内 核 栈 ， 


就 可 以 通过 注册 信号 处 理 函 数 的 方式 向 内 核 注入 任何 
Ring0 代 码 了 。 内 核 采用 了 一 种 巧妙 的 方式 来 执行 信 
号 处 理 函 数 ， 如 图 10-110 所 示 。 

状态 1。 用 户 程序 由 于 某 种 原因 ， 比 如 系统 调用 
或 者 各 种 中 断 ， 导 致 进入 了 内 核 态 运行 ， 内 核 栈 中 保 
存 着 由 CPU 自 主 压 入 的 老 五 样 以 及 内 核 的 系统 调用 或 
者 中 断 处 理 程序 入 口 程序 使 用 SAVE_ALL 宏 保存 起 来 
的 用 户 态 的 断 点 现场 寄存 器 ， 这 两 部 分 加 起 来 被 内 核 


中 红色 部 分 就 是 内 核 代码 生成 的 栈 帧 。 

状态 2。 当 内 核 程序 执行 完毕 要 返回 用 户 态 之 
前 ， 进 入 syscall_exit 宏 ， 这 个 宏 对 应 的 代码 会 检查 
当前 进程 是 否 被 传递 了 信号 且 尚 未 处 理 ， 如 果 有 则 
进入 do_signal0) 流 程 ， 该 流程 的 前 半 部 分 上 文中 介绍 
过 。 后 半 部 分 的 流程 从 setup_rt_frame() 函 数 开始 。 该 
函数 会 首先 在 当前 进程 的 用 户 栈 上 开辟 一 个 新 的 栈 帧 
(sigframe， 黄 色 区 域 ) ， 然 后 把 当前 进程 的 pt_regs 
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( 浅 绿色 部 分 ) 整体 保存 到 这 个 栈 帧 内 部 ， 
然后 自己 构造 一 个 新 的 pt_regs 结 构 体 〈 深 
绿色 ) 写 入 到 内 核 栈 ， 这 个 新 的 pt_regs 是 
专门 为 执行 信号 处 理 函数 而 构建 的 ， 其 EIP 
字段 的 值 指 向 了 信号 处 理 函 数 处 。 其 栈 项 
ESP 字 段 指 向 了 用 户 态 的 新 栈 项 。 这 样 ， 在 
do_signal() 函 数 整 体 执行 完 回 到 syscall_exit 
宏 中 ， 最 后 执行 到 restor_all 宏 和 iret 后 ， 就 
会 开始 执行 信号 处 理 函 数 。 在 信号 处 理 函 数 
执行 期 间 ， 可 能 会 形成 新 的 栈 帧 〈 深 绿色 栈 
帧 ) ， 因 为 信号 处 理 函数 也 需要 执行 一 系列 
的 函数 调用 。 信 号 处 理 函数 执行 完 之 后 ， 得 
有 人 收拾 这 个 残局 ， 将 之 前 旧 的 pt_regs 重 
新 覆盖 到 内 核 栈 空间 恢复 信号 处 理 函数 运 
行 之 前 的 状态 ， 这 件 事 得 有 人 做 ， 内 核 使 
用 了 sys_sigreturn 系 统 调用 来 做 这 件 事 ， 但 
是 为 了 保证 信号 处 理 函数 的 充分 透明 性 ， 
不 需要 用 户 自己 在 信和 号 处 理 函数 内 部 显 式 
地 调用 sigreturn 系 统 调用 ， 而 是 由 内 核 亲 手 
铺垫 好 ， 信 号 处 理 函数 只 需要 常规 的 ret 返 
可 即 可 。 为 了 达到 这 种 效果 ， 在 sigframe 栈 
帧 顶部 放置 一 个 返回 地 址 ， 该 返回 地 址 指 
问 了 一 段 专 门 用 于 执行 sigreturn 系 统 调 用 
的 代码 ， 该 代码 就 是 两 行 : mov sigreturn 
的 调用 号 eax; int 80h。 所 以 ， 当 信号 处 理 
函数 执行 完毕 返回 时 ，ret 指 令 会 导致 跳 转 
到 上 述 两 行 代码 执行 ， 再 次 发 出 系统 调用 
sigreturn。 

状态 3。Sys_sigreturn() 系 统 调用 开始 执 
行 ， 收 拾 残局 ， 将 旧 pt_regs 从 sigframe 中 复制 
到 内 核 栈 底 ， 然 后 删除 sigframe 栈 帧 〈 将 用 户 
栈 的 SP 抬升 至 原来 位 置 即 可 ) 。 

状态 4。 一 切 就 绪 ， 与 状态 1 相同 ， 
sigreturn 系 统 调 用 返回 之 后 ， 再 次 进入 
syscall_exit 宏 ， 再 次 检查 有 无 信号 需要 处 
理 ， 如 果 没 有 ，iret 返 回 用 户 态 ， 从 用 户 态 
程序 之 前 的 断 点 代码 继续 执行 。 

上 述 这 个 过 程 ， 被 封装 到 了 setup_ 
frame() 或 者 setup_rt_frame() 中 ， 篇 幅 所 限 就 
不 贴 出 该 函数 代码 了 。 上 面 只 介绍 了 大 致 思 
PR, 一些 具体 的 细节 请 大 家 自行 了 解 ， 也 请 
注意 不 同 版 本 Linux 区 别 可 能 很 大 。 

我 们 来 重新 整理 一 下 思路 : 假设 父 进 
程 并 没有 注册 任何 针对 SIGCHLD 的 信号 处 
理 函 数 ， 那 么 SIGCHLD 信 号 的 处 理 方式 
为 SIG_IGN， 如 果 同 时 SA_NOCLDWAIT 
标志 被 置 0， 那 么 子 进程 退出 后 处 于 
EXIT_ZOMBIE 状 态 ， 等 待 父 进程 来 收割 

(REAP) ， 同 时 还 会 发 送 SIGCHLD 信 号 
给 父 进 程 。 而 父 进 程 会 在 do_wait() 函 数 下 
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游 的 wait_task_zombie() 函 数 中 完成 对 子 进程 的 彻底 销 
毁 。 同 时 ， 父 进程 在 do_waitO 结 尾 会 判断 是 否 有 已 经 
传递 给 自己 的 信号 ， 如 果 有 ， 则 将 自己 的 状态 修改 为 
TASK RUNNING， 然 后 将 自己 从 等 待 队列 中 移 除 并 
从 do_wait0 返 回 。 如 果 没 有 pending 的 信号 待 处 理 ， 那 
么 do_wait0 会 调用 schedule0 继 续 休眠 〈 此 时 state 依 然 
为 TASK INTERRUPTIBLE) 。 

提示 > 

进程 正在 运行 并 不 意味 着 当前 的 state 一 定 为 

TASK _RUNNING， 比 如 某 个 进程 运行 时 将 state 设 

置 为 其 他 值 比如 INTERRUPTIBLE， 只 要 当前 进程 

不 被 中 断 ， 那 么 它 就 可 以 继续 运行 ， 但 是 一 旦 被 中 

断 或 者 调用 了 schedule() 后 ， 它 就 无 法 再 运行 了 ， 除 

非 被 各 种 原因 唤醒 。 


do_waitO 返 回 ， 系 统 调 用 结束 ， 返 回 到 用 户 态 
继续 执行 ， 从 而 进入 syscall_exit 宏 ， 触 发 do_signal() 
函数 的 运行 ， 从 而 去 处 理 SIGCHLD 信 号 ， 由 于 父 进 
程 并 没有 注册 任何 针对 SIGCHLD 的 处 理 函 数 ， 而 默 
认 的 处 理 方式 为 SIG_IGN， 所 以 do_signal() 中 的 get_ 
signal_to_deliver() 最 终 会 直接 忽略 该 信号 ， 并 返回 
do_signal()， 后 者 返回 ， 退 出 到 syscall_exit 宏 ， 最 后 
restor all、iret 返 回 用 户 态 执行 。 


SA_CLDNOWAIT 等 Flags 如 何 设置 ? 答案 是 通 
过 sigaction(0) 函 数 向 内 核 注册 信号 处 理 函 数 时 ， 可 以 
将 所 有 Flags 封 装 在 一 个 结构 体 中 作为 一 个 参数 传递 
给 sigaction() 函 数 ， 后 者 再 通过 系统 调用 传递 给 内 
核 。 而 signal(0 函 数 可 以 看 作 是 简化 版 的 无 lags 参 数 
的 sigaction0) 函 数 。 如 果 要 让 系统 默认 的 SIG_DFL 信 
号 处 理 过 程 也 受到 SA_CLDNOWAIT 的 影响 ， 则 可 以 
在 sigaction0 中 将 SIG_DFL 注 册 为 SIGCHLD 的 处 理 函 
数 ， 同 时 给 出 flags 参 数 就 可 以 了 。 


可 以 推断 ， 父 进程 执行 do_wait0 后 如 果 接 收 到 某 
个 非 SIGCHLD 信 和 号， 比如 接收 到 SIGKILL 信 号 (有 
人 要 结束 父 进程 》， 那 么 其 也 会 被 唤醒 ， 但 是 其 唤醒 
后 执行 的 是 “goto repeat” 这 一 句 ， 它 会 再 次 去 扫描 
所 有 子 进程 看 看 是 否 有 需要 处 理 的 ， 虽 然 这 一 步 可 能 
做 的 是 无 用 功 ， 也 要 做 ， 这 样 才能 执行 到 if(!signal_ 
pending0) 这 句 ， 由 于 被 发 送 了 SIGKILL 信 号 ， 于 是 进 
入 end 标 记 处 执行 ， 从 而 在 返回 用 户 态 前 夕 处 理 该 信 
号 ， 结 果 就 是 父 进程 被 退出 ， 留 下 了 一 堆 孤儿 进程 ， 
然而 这 堆 孤 儿 进 程 会 在 父 进程 退出 流程 中 被 处 理 ， 过 
继 给 其 他 进程 。 

而 如 果 父 进程 当初 注册 了 针对 SIGCHLD 的 信号 处 
理 函 数 ， 则 父 进程 一 般 不 会 调用 wait/waitpid0 来 收割 
子 进程 ， 而 是 继续 干 自己 的 事情 ， 在 信号 处 理 函 数 中 
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去 执行 wait/waitpid0 〇 函数。 此 时 ， 子 进程 退出 后 处 于 
EXIT_ZOMBIE 状 态 ， 同 时 向 父 进程 注入 了 SIGCHLD 
信号 ， 然 后 唤醒 父 进程 ， 父 进程 可 能 已 经 处 于 唤醒 状 
态 〈 因 为 此 时 父 进程 并 没有 主动 调用 waitwaitpid0) ， 
但 是 父 进 程 并 不 会 有 信和 号 到 来 ， 继 续 执行 自己 的 代 
码 ， 直 到 父 进 程 由 于 某 种 原因 进入 内 核 态 ， 比 如 系统 
收 到 外 部 中 断 、 父 进程 执行 了 系统 调用 、 父 进程 被 切 
出 ， 然 后 再 次 被 调度 运行 ， 返 回 到 用 户 态 前 夕 ， 会 触 
发 do signal0， 此 时 会 进入 handle_ signal0 流 程 ， 从 而 执 
行 信号 处 理 函 数 ， 从 而 执行 了 wait/waitpid0 来 收割 子 进 
程 ， 处 理 函 数 退 出 后 ， 返 回 用 户 态 继续 执行 。 

如 图 10-111 所 示 为 子 进程 退出 信号 处 理 全 局 架构 
示意 图 ， 大 家 可 以 参照 此 图 梳理 一 下 。 至 于 其 他 信 
号 ， 流 程 大 同 小 异 ， 只 不 过 信号 的 触发 源 并 不 是 exitO) 
系统 调用 罢了 ， 比 如 可 以 是 Ctrl+C 组 合 键 触发 等 。 不 
过 ， 该 架构 中 的 基本 流程 和 角色 是 不 会 变 的 ， 发 送 
信号 和 接收 信号 的 进程 各 自 独立 运行 ， 通 过 接收 信和 号 
的 进程 的 task_struct 结 构 体 中 的 信号 相关 部 分 形成 信 
息 共享 纽带 。 

再 回 过 头 来 看 为 什么 要 区 分 TASK_ 
INTERRUPTIBLE 和 TASK_UNINTERRUPTIBLE 这 两 
种 任务 状态 。 很 显然 ， 那 些 依赖 信号 机 制 而 运作 的 程 
序 ， 比 如 设 定 一 个 定时 器 然后 被 唤醒 ， 这 类 任务 必须 
被 置 为 TASK_INTERRUPTIBLE 状 态 ， 这 样 内 核 收 到 
针对 它 的 信号 后 才 会 去 唤醒 它 。 有 时 候 内 核 不 能 仅 因 
为 有 针对 某 任务 的 信号 到 达 就 去 唤醒 该 任务 ， 有 可 能 
该 任务 正在 等 待 另 一 个 更 重要 的 事件 完成 后 才能 唤 
醒 ， 比 如 该 任务 之 前 发 起 了 read/write0 系 统 调 用 ， 正 
在 等 待 数据 的 到 达 而 处 于 休眠 阻塞 中 ， 期 间 如 果 收 到 
了 某 种 信号 ， 内 核 也 不 会 将 其 唤醒 ， 因 为 一 旦 唤醒 ， 
其 即便 是 处 理 完了 信号 ， 而 其 等 待 的 MO 数据 却 并 未 
到 达 ， 就 会 产生 错误 。 所 以 ， 该 任务 发 起 IO 之 后 ， 
其 就 会 被 置 为 TASK_UNINTERRUPTIBLE 状 态 。 

当 信 号 源 ( 比 如 子 进程 退出 调用 do_exit0 系 统 调 
用 ,或 者 其 他 事件 导致 的 send_signal() 内 核 函 数 被 调 
用 ) 产生 了 针对 该 任务 的 信号 之 后 ， 内 核 将 信号 信息 
写 入 到 其 task_struct 中 对 应 的 数据 结构 中 保留 ， 并 且 
会 尝试 唤醒 该 任务 ， 唤 醒 过 程 最 终 都 会 调用 到 try_to_ 
wake_up0 〇 函数 ， 该 函数 的 参数 之 一 就 是 state， 如 果 
是 信号 导致 内 核 欲 唤醒 该 任务 ， 那 么 内 核 调 用 该 函数 
时 的 state 参 数 会 被 指定 为 TASK_INTERRUPTIBLE， 
而 该 函数 内 部 也 会 有 一 句 if (!(p->state & state)) goto 
out， 其 目的 就 是 判断 目标 任务 的 task_struct〔 被 p 所 
指向 ) 中 的 state 字 段 与 参数 state 是 否 相同 ， 如 果 不 同 
则 不 唤醒 它 。 这 就 是 内 核 根据 state 来 控制 是 否 唤醒 的 
机 制 ， 也 就 是 在 调用 try_to_wake_upO 〇 时 通过 给 出 参 
数 ， 而 至 于 给 出 什么 参数 ， 则 是 由 触发 该 唤醒 事件 的 
原因 来 决定 的 ， 如 果 是 信号 导致 唤醒 则 调用 时 会 给 出 
TASK INTERRUPTIBLE， 同 理 ， 如 果 是 IO 数据 完成 
导致 的 唤醒 则 会 给 出 TASK_UNINTERRUPTIBLE。 
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图 10-111 


INTERRUPTIBLE， 而 待 唤醒 任务 的 state 字 段 为 
TASK_UNINTERRUPTIBLE 的 话 ， 那 么 将 不 会 唤醒 。 
如 果 这 个 参数 为 TASK_INTERRUPTIBLE | ТАЗК_ 
UNINTERRUPTIBLE〈 两 者 按 位 或 ) ， 则 处 于 这 两 种 
状态 的 任务 都 可 以 被 唤醒 。 


10.3.2 ”等 待 队列 与 唤醒 


10.3.1 节 中 提 到 过 父 进 程 调 用 wait0 之 后 ， 系 统 调 
用 执行 到 内 核 函数 do_waitO 时 〈 如 图 10-104 所 示 ) ， 
有 一 步 是 将 自己 放 入 了 一 个 名 为 wait_chldexit 的 等 待 
队列 中 ， 如 图 10-112 所 示 代 码 。 并 在 从 do_wiat() 返 
回 的 前 夕 调用 remove_wait_queue() 再 将 自己 从 wait_ 
chldexit 队 列 中 删 掉 。 

与 之 呼应 的 是 ， 在 do_exit0 的 下 游 ， 会 调用 到 
wake_up_common() 函 数 ， 等 待 队列 的 指针 作为 一 个 
参数 传递 给 它 。 它 会 扫描 队列 中 的 项 目 并 依次 处 理 它 
们 ， 也 就 是 唤醒 对 应 项 目 中 登记 的 任务 。 

如 果 有 多 个 任务 要 等 待 同一 个 事件 、 资 源 ， 那 么 
这 些 任务 必须 将 自己 放 到 同一 个 等 待 队列 中 ， 这 与 日 
常 中 的 排队 经 验 是 相同 的 。 而 wait_ chldexit 队 列 比较 特 
殊 ， 它 被 整个 线程 组 〈 也 就 是 位 于 同一 个 虚拟 地 址 空 
间 中 的 所 有 任务 ) 共享 使 用 ， 篇 幅 所 限 不 再 多 介绍 。 

有 个 疑惑 在 于 ，do_wait() 是 否 可 以 不 用 等 待 队 
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这 个 参数 相当 于 一 个 准 入 控制 ， 如 果 为 TASK_ 


列 ， 而 直接 调用 set_current_state() 函 数 将 自己 置 于 
TASK _INTERRUPTIBLE， 而 子 进程 的 do_exitO 下 游 
某 处 直接 调用 _ set task _state0 将 父 进程 的 state 设 置 为 
TASK _ RUNNING， 这 样 难道 不 可 以 么 ? 等 待 队列 的 
必要 性 在 哪儿 ? 

上 述 做 法 的 问题 在 于 ， 如 果 父 进程 并 没有 
调用 wait()， 而 只 是 注册 了 针对 SIGCHLD 的 信号 
处 理 函 数 ， 然 后 就 去 做 自己 的 事情 了 ， 比 如 发 起 
了 read()，read() 的 下 游 会 将 父 进 程 设置 为 TASK_ 
CA кетты 只 有 LO 数据 到 达 才 会 唤醒 

。 而 此 时 其 某 个 子 进程 退出 了 ， 直 接 使 用 _set_ 
_state() 将 父 进程 设置 为 RUNNING 状 态 ， 此 时 父 
进程 会 被 错误 地 唤醒 。 所 以 ， 等 待 队 列 在 该 场景 下 的 
作用 就 是 用 于 通告 父 进程 已 经 调用 了 wait() 准 备 阻塞 
专心 等 待 子 进程 退出 了 ， 而 子 进程 退出 时 也 必须 检查 
该 队列 来 判断 是 否 父 进程 是 因为 等 待 自己 退出 而 阻塞 
的 ， 如 果 是 ， 才 可 以 唤醒 。 

直观 理解 的 话 ， 任 务 等 待 队列 无 非 就 是 一 个 个 处 
于 休眠 状态 的 任务 对 应 的 task_struct， 将 它们 记录 在 
一 张 表 中 就 可 以 。 实 际 上 ， 每 一 条 记录 中 还 需要 包含 
更 多 信息 ， 并 不 仅仅 是 一 个 task_struct 结 构 体 指针 就 
足够 的 。 另 外 ， 这 张 表 应 该 是 可 动态 增删 的 ， 这 意味 
着 其 在 内 存 中 的 分 布 可 能 是 不 连续 的 ， 需 要 有 一 种 高 
效 的 方式 来 记录 ， 链 表 无 疑 是 一 种 比较 好 的 针对 这 种 
场景 的 数据 结构 了 。 


signed int mode, int nr exclusive, int wake flags, void : 


it queue t *curr, *next; 


st for each entry safe(curr, next, &q-»task list, task 1 
unsigned flags = curr-»flags; 
if (curr->func (curr, mode, wake_flags, key) && 
(flags & WQ FLAG EXCLUSIVE) && !--nr exclusive 


break; 


图 10-112 


. wake Up_common0 函 数 代码 
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如 图 10-113 所 示 为 等 待 队列 的 组 织 方式 
和 描述 方式 。 图 中 有 4 个 任务 在 等 待 同一 个 
资源 〈 比 如 某 个 信号 ， 某 个 IO 完成 等 ) ， 由 
于 这 个 资源 没有 准备 好 ， 所 以 这 4 个 任务 都 
处 于 休眠 态 ， 并 将 自己 的 task_struct 指 针 使 用 
add wait queue0 函 数 登记 到 队列 中 。 同 时 ， 
每 条 记录 中 除了 包含 task_struct 指 针 之 外 ， 还 
包含 用 于 控制 唤醒 行为 的 flags 标 记 字段 ( W 
下 文 介 绍 ) 、 用 于 自 定义 唤醒 方式 过 程 函数 
的 func 指 针 字段 ， 以 及 用 于 把 所 有 记录 串 接 
起 来 形成 双向 链表 的 钾 点 结构 〈 指 向 下 一 条 
记录 基地 址 的 next 和 指向 上 一 条 记录 基地 址 
的 prev 指 针 ) o 

将 上 述 架 构 用 代码 来 描述 的 话 ， 每 一 条 
记录 无 疑 应 当 是 一 个 struct， 其 中 包含 flags、 
func、task、prev 和 next 几 个 项 目 。 而 实际 实 
现时 ，prev 和 next 指 针 被 再 次 打包 到 一 个 二 EET EE 
级 的 list_ head 类 型 的 struct 中 ， 这 个 struct list - 
head 就 是 每 个 项 目 被 钉 在 链条 上 的 锦 点 。 此 
外 还 需要 实现 一 个 链表 的 链 头 ， 这 个 头 部 除 
了 包含 list_head 钾 点 结构 之 外 ， 还 有 一 个 lock 
字段 ， 用 于 作为 整个 链表 的 锁 ， 因 为 可 能 会 
同时 有 多 个 任务 尝试 向 队列 中 注册 或 者 删除 
自己 的 task_struct， 在 第 6 章 中 介绍 过 锁 的 基 
本 原理 。 

每 个 wait_queue_t 中 的 func 字 段 指向 的 是 
用 于 唤醒 该 任务 的 唤醒 函数 (也 就 是 说 ， 如 
果 要 唤醒 该 任务 的 话 则 需要 调用 该 指针 指向 
的 函数 ) ， 默 认为 default_wake_function0。 该 
函数 是 对 try_to_wake_up0 函 数 的 封装 ， 后 者 
在 下 游 调用 链 中 经 过 一 系列 处 理 和 判断 之 后 
将 目标 任务 设置 为 TASK_RUNNING 状 态 ， 
并 且 调 用 enqueue_task0 〇 函数 将 目标 任务 放 入 
运行 队列 ， 接 受 schedule0 的 调度 。 内 核 模块 
也 可 以 通过 调用 init_waitqueue_func_entry0 函 
数 指定 任意 自 定义 的 唤醒 函数 。 

如 图 10-114 所 示 为 与 等 待 队列 创建 、 
管理 相关 的 部 分 函数 一 览 。 其 中 ，init_ 
waitqueue_entry0 函 数 负责 将 等 待 队列 初始 化 
为 默认 值 ， 包 括 将 flags 设 置 为 0，task 指 针 设 
置 为 参数 中 给 出 的 指针 ， 唤 醒 处 理 函数 设置 
为 默认 值 。 

这 些 函 数 都 是 内 核 函数 ， 用 户 态 无 法 调 
用 。 实 际 上 ，Linux 内 核 并 没有 为 等 待 队列 的 
管理 直接 暴露 系统 调用 接口 ， 用 户 态 程序 只 
能 间接 、 无 感知 地 使 用 到 内 核 等 待 队列 ， 比 
如 ， 用 户 态 调用 wait0/read0 等 ， 进 入 系统 调 
用 路 径 之 后 ， 后 者 在 内 核 态 下 游 会 创建 等 待 
队列 ， 或 者 直接 使 用 任务 创建 时 已 经 初始 化 
好 的 队列 。 如 果 回顾 一 下 上 文中 的 do_waitO 
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N struct list_head 
wait queue head t 


各 task struct 
wait queue t 


task struct task struct 
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对 应 架构 的 代码 表示 


{ struct list head *next, *prev; }; 


queu: 
e func t func; 
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struct task struct * task; 


unsigned int flags; 


wait 


typedef struct 


{ 
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struct wait 
typedef struct 
struct list head 
struct _ | 
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函数 就 会 发 现 ， 其 中 就 调用 了 init_ waitqueue - 
func_entryO 以 及 add_wait queue(). remove | 

wait_queue() 函 数 ， 而 这 些 底层 行为 对 用 户 态 
$2225 程序 而 言 是 不 可 见 的 ， 用 户 态 只 知道 它 调用 了 
каваш ны щш 2a wait0 且 一 段 时 间 后 返回 了 。 

内 核 中 有 一 些 典 型 的 函数 内 部 会 使 用 到 
等 待 队 列 ， 如 图 10-115 所 示 。 这 些 函 数 中 有 一 
些 会 被 导出 到 内 核 符号 表 中 ， 不 仅 可 供 内 核 已 
有 模块 调用 ， 也 可 以 供 驱 动 程序 开发 者 调用 ， 
驱动 程序 加 载 时 ， 内 核 的 装载 器 会 从 内 核 符号 
表 中 找到 这 些 内 核 函 数 的 地 址 从 而 与 驱动 程序 
文件 进行 链接 操作 。 

下 面 来 分 析 一 下 图 10-115 中 的 wait_ 
event， 这 其 实 是 个 宏 ， 其 相当 于 do…while(0) 
之 间 的 代码 。DEFINE_WAIT 又 是 个 宏 ， 见 
图 中 央 下 方 ，DEFINE_WAIT_FUNC 又 是 个 
宏 ， 见 图 左下 角 。 所 以 ”wait_event 一 开始 
其 实 是 先 声 明了 一 个 wait_queue_t 的 等 待 队 
列 项 目 ， 并 进行 填充 ， 任 务 指针 就 是 当前 任 
务 ， 唤 醒 函 数 是 autoremove_wake_function0， 
并 且 使 用 LIST_HEAD_INIT 宏 生成 一 个 链 
RMA (task list) 。 然 后 进入 一 个 永久 
for 循 环 ， 循 环 内 先 调用 prepare_to_wait()， 
见 图 中 央 上 方 ， 该 函数 将 上 一 步 生成 好 的 
队列 项 目 加 入 到 给 出 的 队列 中 ， 然 后 将 任 
务 状态 设置 为 给 出 的 状态 (本 例 中 为 TASK_ 
UNINTERRUPTIBLE) ， 然 后 执行 过 判 断 ， 
condition 为 唤醒 条 件 ， 如 果 满 足 则 跳出 循环 去 
执行 finish_wait0 将 自己 从 等 待 队 列 中 删 掉 ( 因 
为 条 件 已 经 满足 ， 没 必要 休眠 等 待 ) ， 如 果 
condition 不 满足 ， 则 调用 scheduleO 通 知 内核 将 
自己 切 出 ， 休 眠 ， 当 被 唤醒 时 会 继续 从 for 循 环 
入 口 进 入 重新 执行 上 述 过 程 ， 直 到 condition 满 
RAE. 

我 们 再 来 看 看 与 唤醒 相关 的 函数 。 当 条 
件 满 足 后 ， 比 如 IO 结束 ， 收 到 信号 ， 等 等 ， 
对 应 的 内 核 程序 〈 比 如 产生 信号 的 进程 的 内 核 
态 代 码 、 硬 件 驱动 程序 相关 代码 等 ) 会 调用 对 
应 的 函数 来 唤醒 目标 任务 。 如 图 10-116 所 示 为 
部 分 唤醒 函数 以 及 对 应 的 封装 和 变种 。 

图 中 的 函数 多 数 都 调用 了 _wake_up_ 
common()， 该 函数 内 部 的 逻辑 基本 上 是 扫描 
等 待 队列 中 的 每 个 项 目 〈 用 了 一 个 非常 复杂 
的 宏 list_for_each_entry_safe， 这 个 宏 是 一 个 
for 循 环 ， 在 这 个 循环 中 既 对 相关 变量 进行 了 
赋值 ， 又 做 了 对 应 的 判断 ， 具 体 请 大 家 自行 
阅读 ) ， 然 后 执行 if (curr->func(curr mode, 
wake flags, key) &&(flags & МО FLAG 
EXCLUSIVE) && !-nr exclusive) breakiX 4] 
关键 代码 。curr->func 字 段 就 是 对 应 队列 条 
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图 10-114 与 等 待 队列 创建 和 管理 相关 的 部 分 函数 一 览 


t "head, wait queue t *new) 


(wait, mode, sync, key); 
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(wait queue t *wait, unsigned mode, int sync, void *key) 


queue(wait queue head t *head, wait queue t *old) 


queue(wait queui 


(wait queue t *curr, unsigned mode, int wake flags, void *key) 


default wake function 


return try to wake up(curr-» private, mode, wake flags); 


if (ret) list del init(&wait-»task list); 
list add(&new-»task list, &head- »task list); 


list del(&old-»task list); 


int ret 
return ret; 
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目 中 之 前 注册 的 唤醒 函数 指针 ， 该 语句 执行 了 该 函 
数 〈 函 数 执行 正常 则 返回 1) ， 并 将 结果 与 其 他 两 个 
额外 条 件 相 逻辑 与 (&&) ， (flags& WQ_FLAG_ 
EXCLUSIVE) 表示 如 果 该 等 待 条 目 中 的 flags 字 段 为 
WQ FLAG EXCLUSIVE 则 为 真 ，!- -nr_exclusive 表 
示 将 nr_exclusive 变 量 减 1 之 后 的 值 再 取 反 ， 如 果 - -nr_ 
exclusive 为 0， 则 该 条 件 为 真 。 这 三 个 条 件 都 为 真 则 跳 
出 for 循 环 。 

现在 是 时 候 介绍 flags 的 作用 了 。 上 文中 提 到 过 
多 个 任务 可 能 会 等 待 同一 个 资源 ， 这 些 任务 就 需要 
被 放 到 同一 个 等 待 队列 中 去 。 之 后 ， 还 会 细 分 为 多 
种 情况 ， 比 如 ， 资 源 可 用 时 唤醒 队列 中 的 条 目 中 
flags=0x00 的 任务 (这 也 是 wake_up_all0 宏 的 行为 )， 
资源 可 用 时 唤醒 队列 中 所 有 的 flags=0 的 条 目 以 及 nr_ 
exclusive 变 量 所 指定 数量 的 flags=0x01 (WQ_FLAG - 
EXCLUSIVE) 的 任务 等 ， 这 些 不 同 的 唤醒 方式 ， 被 
封装 为 不 同 的 宏 名 称 APH FH) ， 其 本 质 上 都 是 
调用 了 _wake_up0 函 数 ， 后 者 又 调用 了 上 文中 分 析 过 
的 _wake_up_common() 函 数 。flags 字 段 的 作用 就 是 用 
于 描述 某 个 条 目 中 的 任务 是 否 需 要 独占 《Exclusive) 
使 用 对 应 的 资源 ， 是 则 其 值 为 0x01 CWQ_FLAG_ 
EXCLUSIVE) ， 否 则 为 0。 如 果 队列 中 有 多 个 任务 
需要 独占 对 应 资源 ， 可 以 每 次 只 唤醒 其 中 一 个 任 
务 ， 也 可 以 唤醒 它们 中 的 多 个 ， 共 享 访问 同一 个 资 
源 的 任务 需要 通过 互 斥 锁 来 争 抢 ， 所 以 这 多 个 被 唤 
醒 的 任务 醒 来 后 会 先 抢 锁 ， 胜 出 者 使 用 资源 ， 未 胜 
出 者 继续 将 自己 放 入 等 待 队列 休眠 。 至 于 唤醒 几 个 
Exclusive 的 任务 ， 由 nr_exclusive 变 量 作 为 参数 来 指 
定 。 所 以 在 那个 for 循 环 中 每 次 要 把 nr_exclusive 减 
1， 减 到 0 表明 达到 了 唤醒 Exclusive 任 务 的 上 限 。 而 
且 从 那个 for 循 环 中 还 可 以 得 出 一 个 结论 ， 就 是 那些 
非 独 占 的 〈flags=0) 等 竺 条目 必须 被 放置 到 队列 前 
面 ， 这 样 for 才 不 会 跳出 ， 也 就 是 先 处 理 非 独占 的 ， 
处 理 完 再 处 理 独 占 的 。 

图 中 所 示 的 default_wake_function0) 就 是 上 文中 提 
到 过 的 、 其 指针 默认 被 注册 到 等 待 队列 项 目 (wait_ 
queue t) 中 func 字 段 的 默认 唤醒 函数 ， 可 以 看 到 其 调 
用 了 try_ to wake up0 函 数 ， 该 函数 的 代码 比较 复杂 ， 
其 结尾 会 调用 ttwu_post_activation0， 而 后 者 中 会 将 目 
标 任务 状态 置 为 TASK_RUNNING， 并 将 目标 任务 加 
入 到 运行 队列 中 。 

设想 这 样 一 个 场景 : 某 任务 先 将 自己 的 状态 改 为 
TASK INTERRUPTIBLE， 然 后 调用 schedule0 将 自己 
切 出 去 ， 这 个 任务 还 有 可 能 再 次 运行 么 ?schedule0 会 
判断 如 果 该 任务 状态 不 是 Running， 则 将 其 从 运行 队 
列 中 删 掉 ， 那 么 如 果 没 有 人 唤醒 (重新 将 其 加 入 运行 
队列 ) 它 ， 它 将 无 法 再 次 运行 ， 睡 死 掉 。 信 和 号 的 到 来 
可 以 唤醒 它 ， 因 为 内 核 里 的 send_signal0 函 数 下 游 会 
调用 try_to_wake_up0， 该 函数 内 部 会 判断 如 果 任 务 
状态 为 TASK _INTERRUPTIBLE， 则 将 它 加 到 运行 队 
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列 中 供 调度 器 调度 。 如 果菜 任务 将 自己 设置 为 TASK_ 
UNINTERRUPTIBLE， 那 么 收 到 信号 并 不 会 去 唤醒 
它 ， 但 是 其 他 任务 可 以 直接 调用 内 核 函数 wake up_ 
process() 唤 醒 它 ， 但 是 其 他 任务 不 会 平 白 无 故地 唤醒 
它 〈 除 非 故 意 这 样 设计 ) ， 一 般 都 是 由 于 某 个 条 件 达 
成 了 才 会 唤醒 它 ， 而 等 待 队列 则 为 条 件 的 生产 者 和 消 
费 者 提供 了 一 个 通用 松 耦 合 接口 ， 等 待 条 件 的 任务 进 
入 等 待 队列 ， 产 生 条 件 的 任务 到 队列 中 搜寻 并 唤醒 等 
待 条 件 的 任务 ， 而 不 是 一 对 一 地 去 唤醒 ， 假 设 有 100 
个 任务 等 待 被 唤醒 ， 产 生 条 件 的 任务 要 在 代码 里 挨个 
一 对 一 唤醒 它们 ， 很 低 效 。 


10.3.3 ”进程 间 通 信 


很 多 时 候 不 同 进程 之 间 有 相互 传递 消息 的 需求 ， 
然而 进程 间 的 地 址 空间 是 隔离 的 ， 进 程 间 无 法 直接 通 
过 访问 某 个 变量 的 方式 来 通信 。 但 是 可 以 利用 多 种 其 
他 方式 实现 通信 ， 比 如 利用 文件 系统 中 的 一 个 文件 ， 
由 于 并 不 会 为 每 个 任务 提供 一 个 文件 的 影子 副本 ， 在 
这 一 层 已 经 没有 必要 隔离 ， 所 以 一 方 写 入 文件 ， 另 一 
方 读 出 文件 ， 即 可 实现 沟通 。 

但 是 读 写 文件 需要 访问 硬盘 ， 速 度 慢 ， 于 是 系 
统 设计 者 们 提供 了 一 个 虚拟 的 文件 ， 让 任务 写 入 的 数 
据 不 落 入 硬盘 ， 而 是 落 入 一 个 有 内 核 维护 的 内 存 区 域 
中 ， 并 提供 特殊 的 API 以 让 任务 可 以 向 内 核 申 请 创建 
这 个 特殊 文件 ， 这 个 API 就 是 sys_pipe 系 统 调用 ， 内 
核 会 返回 创建 好 的 虚拟 文件 的 file descriptor， 用 户 程 
序 就 可 以 使 用 Open/Read/Write 的 方式 来 操作 虚拟 文件 
了 。 这 种 方式 被 俗称 为 管道 (pipe) 方式 。 

在 10.1.8.3 节 中 介绍 过 利用 mmap() 在 进程 间 共 享 
内 存 方式 通信 的 基本 思路 ， 如 果 将 多 个 任务 的 某 段 虚 
拟 地 址 空间 映射 到 同一 段 物理 地 址 空间 的 话 ， 那 么 这 
多 个 任务 就 可 以 直接 采用 访 存 的 方式 来 相互 通信 了 ， 
而 不 需要 向 Pipe 方 式 那样 必须 调用 Open/Read 等 系统 
调用 进 内 核 去 操作 。 但 是 有 个 问题 需要 解决 ， 那 就 是 
mmap0 调 用 并 无 法 让 内 核 将 某 段 虚拟 地 址 映射 到 指定 
的 物理 地 址 上 ， 物 理 地 址 是 内 核 动态 分 配 的 ， 那 么 多 
个 任务 之 间 就 无 法 与 内 核 协商 来 映射 到 同一 段 物理 地 
址 上 。 为 此 ， 内 核 暴露 了 另外 一 套 接口 shmget/shmat/ 
shmdt/shmctl 系 列 系统 调用 接口 。 

sys shmget(key t key, size t size, int Пар); sys. 
shmaf(ntshmid,char user *shmaddr,intshmflg) sys. 
shmdt(char user *shmaddr); sys shmctl(int shmid, int 
cmd, struct shmid ds _ user *buf); 

通过 这 套 接口 ， 任 务 调用 shmget( (share memory 
get) 来 向 内 核 申 请 一 块 名 为 key 的 用 于 共享 的 内 存 
(key 为 0 则 表示 新 建 一 块 内 存 ，key 不 为 0 则 向 内 核查 
询 之 前 已 经 创建 的 对 应 该 key 的 内 存 区 的 shm id) ， 内 
核 返 回 一 个 shbm id， 本 任务 和 其 他 任务 拿 着 这 个 shm_ 
id 再 去 各 自 调 用 shmatO (share memory attach) 通知 内 
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核 将 该 shm_ id 对 应 的 物理 内 存 分 别 映射 到 各 自任 务 的 
虚拟 地 址 空间 中 ， 后 续 就 可 以 使 用 了 。shmdt() (share 
memory detach) 函数 用 于 任务 通知 内 核 自己 不 想 再 映 
射 该 内 存 到 自己 的 地 址 空间 。shmctlO (share memory 
control) 函数 用 于 各 种 控制 ， 比 如 其 参数 cmd 可 以 取 
值 为 IPC_STAT (查看 状态 ) 、IPC_SET (设置 其 他 属 
TE) 、IPC_RMID〔〈 删 除 该 共享 内 存 ) 。 
进程 间 通 信 (Inter Process Communication, 

IPC) 的 方式 还 有 其 他 多 种 ， 比 如 通过 Socket 方 式 走 
TCP/IP 进 行 信息 传递 等 ， 篇 幅 所 限 就 不 多 介绍 了 。 


10.3.4 ” 锁 和 同步 


我 们 在 第 6 章 中 曾经 介绍 过 互 斥 锁 ， 它 是 解决 多 
核心 并 发 访问 共享 资源 时 产生 的 缓存 时 序 一 致 性 的 必 
要 手段 ， 也 介绍 了 它 的 底层 实现 机 制 ， 也 就 是 利用 处 
理 器 提供 的 带 锁 的 访 存 指令 或 者 原子 操作 指令 来 更 改 
锁 变量 从 而 实现 加 锁 。 本 节 我 们 来 深入 思考 一 些 问 
题 ， 在 继续 阅读 之 前 建议 回顾 第 6 章 中 的 内 容 ， 先 理 
解 底层 机 制 后 续 的 阅读 会 更 加 顺畅 。 


10.3.4.1 信和 号 量 (Semaphore ) 


最 早期 的 互 斥 锁 起 源 于 1965 年 ， 由 荷兰 计算 机 
科学 家 Edsger Dijkstra 设 计 提 出 。 其 把 用 于 充当 锁 的 
变量 称 为 Semaphore (1974 年 该 词 第 一 次 被 Dijkstra 
提出 ) ， 中 文 原 意 是 “信号 灯 ”， 学 术 化 称谓 则 是 
“信号 量 ”。Dijkstra 的 设计 是 把 Semaphore 的 值 初始 化 
为 1， 并 设计 了 加 锁 〈 将 锁 变 量 -1) 和 解锁 〈 将 锁 变 量 
+1) 函数 。 加 解锁 的 过 程 分 别 被 Dijkstra 称 为 Prolagen (ff 
兰 语 ， 表 示 试 着 减少 的 意思 ， 俗 称 P 操 作 ) 和 Verhogen (fij 
兰 语 ， 表 示 试 着 增加 的 意思 ， 俗 称 V 操 作 )， 不 过 在 现代 
OS 代 码 中 使 用 的 是 down 和 up 这 两 个 词 了 。 

Dijkstra 将 加 锁 函 数 设计 为 阻塞 调用 ， 也 就 是 说 如 
果 发 现 拿 不 到 锁 〈Semaphore 已 经 为 0) ， 则 该 函数 会 
把 当前 进程 设置 为 等 待 状态 ， 阻 塞 掉 ， 一 直 等 到 拿 到 
锁 的 任务 调用 解锁 函数 释放 该 锁 时 ， 解 锁 函 数 顺便 将 
该 被 阻塞 的 任务 重新 设置 为 可 运行 态 。 加 解锁 函数 被 
当 作 OS 的 一 部 分 来 实现 ， 但 是 由 于 当时 的 操作 系统 还 
没有 所 谓 的 保护 模式 ，OS 内 核 无 非 就 是 驻 留 在 与 用 户 
程序 相同 的 地 址 空间 中 的 一 堆 代码 和 数据 ， 任 意 程序 
都 可 以 直接 调用 加 解锁 函数 ， 而 不 需要 现代 OS 的 繁多 
的 系统 调用 流程 ， 所 以 其 实现 效率 还 是 很 高 的 ， 也 是 
最 为 理想 的 用 户 程序 互 斥 锁 方案 。 

后 来 ， 另 一 位 荷兰 人 Dr Carel S. Scholten 提 出 ， 
Semaphore 的 值 不 一 定 必须 被 初始 化 设置 为 1， 可 以 设 
置 的 更 大 一 些 ， 比 如 8。 这 样 的 话 ， 同 一 个 时 刻 就 可 
以 有 8 个 任务 同时 拿 到 这 个 锁 〈 因 为 8 可 以 被 连续 减 
8 次 1 才 会 到 0， 那 就 会 有 8 个 任务 都 认为 自己 已 经 拿 
到 了 锁 ) ， 每 当 某 个 任务 处 理 完 打算 解锁 时 ， 会 把 
Semaphore 变 量 加 1， 这 样 ， 另 外 一 个 任务 就 又 可 以 拿 


到 锁 补 上 一 个 来 。 假 设 系统 当前 共有 50 个 任务 ， 但 是 
由 于 某 种 设计 原因 ， 最 多 只 允许 它们 中 的 8 个 同时 运 
行 ， 这 个 需求 ， 利 用 上 述 设计 刚好 可 以 满足 。 

有 个 疑惑 是 ， 这 8 个 任务 难道 不 会 同时 访问 临 
界 区 资源 导致 错乱 么 ? 其 实 ， 被 初始 化 为 8 的 这 个 
Semaphore 变 量 的 作用 此 时 已 经 不 是 用 来 控制 临界 区 
资源 ， 而 是 用 来 控制 可 最 大 同时 运行 的 任务 数 了 ， 至 
于 这 8 个 任务 怎么 协调 临界 区 资源 的 互 斥 ， 可 以 再 用 
一 个 Semaphore 被 初始 化 为 1 的 锁 来 实现 。 比 如 有 个 停 
车 场 只 有 8 个 车 位 ， 一 开始 都 可 用 ， 来 了 一 辆 车 ， 收 
费 口 就 把 剩余 车 位 信号 灯 -1=7， 至 于 这 辆 车 选择 这 8 
个 车 位 中 的 哪 一 个 来 停 ， 这 就 是 另外 一 套 规则 了 ， 收 
费 口 可 不 管 这 个 。 

这 种 可 以 控制 有 限 数量 个 任务 同时 运行 的 信号 量 
被 称 为 Counting Semaphore 〈 计 数 信号 量 ) ， 相 比 之 
下 被 初始 化 为 1 的 信号 量 就 是 Binary Semaphore 〈 二 值 
信号 量 / 互 斥 信号 量 ) 。 

如 图 10-117 所 示 为 内 核 中 处 理 信 号 量 的 部 分 内 核 
函数 。 其 中 ，down 类 和 up 类 分 别 为 加 锁 和 解锁 相关 的 
处 理 函数 。 其 中 可 以 看 到 加 锁 过 程 伴随 着 内 核 将 拿 不 
到 锁 的 任务 放置 到 名 为 waiter 的 等 待 队列 中 的 末尾 ; 
解锁 的 时 候 伴随 着 将 排 在 等 待 队列 头 部 的 任务 从 队列 
中 删 掉 ， 同 时 唤醒 该 任务 ， 意 味 着 该 任务 运行 时 会 拿 
到 锁 。 所 以 在 该 Linux 版 本 (2.6.39.4) 中 的 信号 量 处 
理 被 设计 为 所 有 等 待 拿 锁 的 任务 被 按照 先 来 先 得 的 
FIFO 顺 序 来 拿 锁 ， 而 并 不 是 随机 一 窝 蜂 模式 。 

下 面 来 分 析 一 下 用 于 从 Semaphore 上 拿 到 一 个 锁 
时 的 流程 。 先 介绍 关键 数据 结构 : semaphore 结 构 体 
和 semaphore_waiter 结 构 体 。 前 者 含有 关键 的 count 计 
数值 、lock 锁 值 、 链 表 钾 点 list_ head; 后 者 包含 链表 
钾 点 list_head 和 task_struct 指 针 ， 以 及 一 个 up 标记 值 。 
你 应 该 可 以 猜 到 了 ，struct semaphore sem 是 用 来 存放 
本 信号 量 及 其 附属 信息 的 ， 而 struct semaphore waiter 
waiter 存 放 的 则 是 拿 不 到 锁 而 等 待 的 任务 的 信息 ， 显 
然 ， 你 脑 中 应 该 浮现 出 一 个 场景 : 若干 个 waiter 表 通 
过 钾 点 挂 接 到 sem 表 的 钾 点 上 ， 就 这 样 。 

再 来 看 算法 流程 。 我 们 从 拿 锁 /加 锁 的 主 入 
口 down() 函 数 开始 分 析 。 其 首先 将 传递 给 它 的 
semaphore 结 构 体 中 的 count 字 段 值 读 出 ， 如 果 大 于 
0, 证 明 锁 是 开 的 《如 果 是 二 值 信号 量 则 证 明 对 方 
没有 占有 锁 ， 如 果 是 计数 信号 量 则 证 明 依然 有 一 个 
空闲 的 锁 可 以 拿 ) ， 则 执行 减 1 操作 。 如 果 不 大 于 
0， 表 明 本 次 加 锁 失败 ， 调 用 _down() 函 数 。 后 者 向 
__down_common() 传 递 了 对 应 的 参数 ， 调 用 之 。 在 
. down_common(0 中 ， 调 用 list_add_tail0， 将 waiter 
挂 到 sem 的 wait_list 锦 点 上 ， 然 后 把 当前 任务 的 task_ 
struct 指 针 赋 值 给 waiter.task， 然 后 waiter.up 赋 值 为 
0， 该 值 下 文 介绍 。 然 后 进入 一 个 for 大 循环 ， 首 先 
检查 当前 任务 是 否 有 信号 待 处 理 ， 有 则 直接 跳出 到 
interrupted 标 记 处 执行 list_del 从 刚才 已 加 入 的 队列 中 


再 删 掉 自 己 ， 然 后 返回 错误 码 EINTR 表 示 还 不 能 休 
眠 ， 有 信号 ， 至 于 返回 之 后 怎么 处 理 ， 就 是 上 游 调 
用 者 的 事情 了 ， 读 者 可 自行 了 解 。 如 果 timeout<0， 
则 证 明之 前 睡眠 后 由 于 超时 被 唤醒 ， 则 跳出 到 timed_ 
out 标 记 处 执行 list_del() 然 后 返回 错误 码 ETIME。 如 
果 既 没有 信号 等 待 处 理 又 没有 超时 ， 则 调用 __set_ 
task_state() 将 自身 设置 为 参数 state 指 定 的 状态 ， 本 
例 中 为 TASK_UNINTERRUPTIBLE。sbin_unlock | 
irq() 我 们 先 不 说 ，10.3.4.3 节 读 完 后 再 返回 来 看 自 
会 理解 。 然 后 调用 schedule_timeout()， 该 函数 是 对 
schedule() 的 封装 ， 加 了 一 些 超时 唤醒 机 制 ， 将 自己 
切 出 去 ， 让 给 其 他 任务 执行 ， 但 是 超时 必须 唤醒 自 
己 ， 实 际 上 是 通过 注册 了 一 个 闹钟 ， 到 时 发 出 中 断 
然后 在 中 断 处 理 时 唤醒 自己 的 。 执 行 完 这 个 函数 后 
本 任务 就 睡眠 在 sem->wait_list 上 挂 接 的 waiter 上 了 。 

我 们 再 回头 看 一 下 其 他 任务 解锁 时 的 过 程 ， 解 锁 
的 入 口 为 up0 函 数 ， 其 先 判断 wait_ list 是 否 为 空 ， 如 果 
空 则 证 明 没有 任务 在 等 待 锁 ， 那 么 将 count 加 1， 解 锁 。 如 
果 不 为 空 ， 则 不 碰 count〔 依 然 为 0 ， 转 而 调用 _up0， 在 
_up0 函 数 中 ， 从 队列 中 取出 第 一 个 waiter， 然 后 将 其 中 
的 list_head 钾 点 从 wait_list 链 表 上 断 开 ， 脱 离队 列 ， 或 
者 说 从 队列 上 摘 掉 ， 然 后 将 其 up 字段 改 为 1， 该 字段 表 
示 是 由 于 其 他 任务 解锁 了 打算 唤醒 该 任务 。 然 后 调用 
wake up_process0 唤 醒 这 个 摘 下 来 的 任务 。 

我 们 再 回头 看 被 唤醒 的 任务 。 被 唤醒 的 任务 都 会 
从 _down_common0 函 数 中 的 spin_lock irq0 处 开始 执 
行 ， 对 sem->lock 加 锁 操 作 ， 然 后 判断 是 否 waiterup 为 
1， 如 果 是 则 证 明 是 有 人 解锁 了 然后 唤醒 了 自己 ， 于 
是 直接 返回 ， 然 后 downO 函 数 就 返回 了 ， 本 任务 加 锁 
成 功 。 这 里 有 个 不 好 理解 的 地 方 在 于 ， 其 他 任务 解锁 
时 发 现 有 任务 等 待 锁 ， 于 是 不 把 count++， 就 好 像 依 
然 被 锁定 着 一 样 ， 而 是 直接 唤醒 等 待 锁 的 任务 ， 唤 
醒 之 后 的 任务 也 无 须 执行 count--， 这 就 好 比 有 人 要 
向 ATM 机 存 钱 ， 你 和 他 说 “反正 我 也 要 取 ， 你 别 存 
了 ， 直 接 给 我 得 了 ”一 样 ， 请 自己 体会 吧 。 这 样 设计 
的 原因 是 避免 ++ 和 -- 做 无 用 功 。 如 果 waiterup 不 为 1， 
则 表明 任务 并 不 是 因为 有 人 解锁 而 被 唤醒 ， 那 一 定 是 
其 他 原因 ， 则 跳 回 到 for 开 头 继续 执行 ， 判 断 是 否 是 由 
于 收 到 了 信号 而 被 唤醒 ， 或 者 是 否 是 由 于 timeout 了 才 
被 唤醒 ， 然 后 分 别 go out 到 相应 的 代码 处 执行 。 


Semaphore 由 于 锁 变量 和 锁 的 管理 过 程 代码 都 
位 于 OS 内 核 中 ， 所 以 它 可 以 支持 多 进程 之 间 的 锁 ， 
虽然 每 个 进程 无 法 直接 以 访 存 的 方式 来 访问 锁 ， 但 
是 它们 可 以 通过 系统 调用 各 自 进入 内 核 来 访问 锁 。 
相反 ， 如 果 将 锁 变 量 放 在 用 户 空间 ， 那 么 就 只 支持 
多 线程 之 间 的 锁 。 有 一 种 办 法 除外 ， 那 就 是 利用 共 
享 内 存 方式 ， 让 多 个 进程 都 可 以 看 到 同一 份 数据 ， 
则 也 可 以 实现 用 户 空 间 的 锁 ， 下 文 会 有 介绍 。 
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然而 ， 在 现代 操作 系统 中 ，Semaphore 加 解锁 函 
数 如 果 位 于 内 核 态 中 的 话 ， 内 核 就 得 暴露 对 应 的 系 
统 调 用 接口 给 用 户 程序 ， 用 于 创建 、 加 锁 、 解 锁 、 
销毁 、 查 询 信号 量 。 历 史上 有 两 套 主流 的 用 户 态 
库 ， 一 套 是 System V 库 ， 另 一 套 是 POSIX 库 。glibe 
库 中 对 这 两 个 标准 都 实现 了 各 自 的 用 户 态 接口 函 
数 ， 然 而 由 于 这 两 个 标准 中 对 信号 量 的 实现 有 细节 
差异 ，Linux 操 作 系 统 在 内 核 中 提供 了 分 别针 对 这 两 
个 标准 的 实现 。 

针对 System V 的 信号 量 标准 ， 内 核 源 码 位 
于 /ipc/sem.c 中 ， 并 暴露 下 面 的 系统 调用 接口 : 
sys semget(key t key, int nsems, int semflg); sys_ 
semop(int semid, struct sembuf — user *sops, unsigned 
nsops); semctl(int semid, int semnum, int cmd, union 
semun arg); sys semtimedop(int semid, struct sembuf 
. user *sops, unsigned nsops, const struct timespec __ 
user *timeout)。Semget 用 于 向 内 核 申 请 创建 一 个 信 
号 量 ，semop 则 是 对 该 信号 量 的 各 种 操作 比如 加 锁 解 
锁 等 ，semcrl 用 于 查询 等 控制 ，semtimedop 则 是 带 有 
超时 机 制 的 加 解锁 操作 ， 可 以 保证 一 旦 超过 时 间 则 
解除 阻塞 ， 防 止 死 锁 的 发 生 。 利 用 这 套 系统 调用 接 
口 ，glibc 中 封装 出 了 semctl()、semget()、semop0 用 
户 态 接口 。 

针对 POSIX 标 准 的 信号 量 ， 内 核 源 码 位 于 /kernel/ 
futex.c 中 ， 并 暴露 了 单一 的 sys_futex0 系 统 调用 接口 。 
利用 sys_futex 接 口 ，glibc 中 封装 出 了 sem_init0)、 sem_ 
ореп(). sem destory(). sem роз). sem wait(), sem | 
timedwait(), sem trywait(), sem вейуаше() H "Ж 
接口 函数 。sem_post(O) 为 解锁 函数 ，sem_wait() 为 抢 锁 
函数 ， 其 他 请 自行 了 解 。 下 文中 会 介绍 Futex。 

此 外 ，Linux 还 在 内 核 中 实现 了 另 一 套 私 有 的 信 
号 量 实现 ， 源 码 位 于 /kernel/semaphore.c 中 ， 其 中 的 
函数 就 是 在 上 文中 的 图 10-117 中 的 那些 函数 ， 这 些 函 
数 只 能 供 内 核 模块 调用 ， 比 如 一 些 驱动 程序 和 原生 
的 内 核 态 代码 ， 并 没有 暴露 任何 系统 调用 接口 。 如 
图 10-118 所 示 总 结 了 上 述 复杂 场景 。 

信号 量 使 用 起 来 有 一 个 特点 : 并 非 只 有 加 锁 的 
那个 线程 才能 解锁 ， 有 可 能 线程 A 加 了 锁 ， 而 线程 
B 给 解 了 锁 。 也 就 是 说 ， 内 核 并 不 检查 当前 任务 是 
否 有 权限 解锁 。 正 因 如 此 ， 才 能 实现 上 面 那个 停车 
场 场景 。 如 果 使 用 的 是 二 值 信号 量 ， 上 述 特性 会 引 
发 一 个 潜在 的 问题 ， 比 如 线程 A 加 了 锁 ， 而 线程 B 
的 代码 里 忘记 了 加 锁 ， 而 直接 尝试 解锁 ， 那 么 就 会 
乱 掉 。 此 外 ， 由 于 不 做 任何 检查 ， 一 个 线程 如 果 接 
连 加 了 两 次 锁 ， 那 么 便 会 形成 死 锁 ， 自 己 等 自己 解 
锁 ， 而 自己 同时 又 是 被 阻塞 地 无 法 运行 ， 这 样 其 他 
任务 也 无 法 抢 到 锁 。 另 外 ， 如 果 加 了 锁 的 任务 突然 异 
常 退出 了 ， 那 么 也 会 形成 死 锁 ， 为 了 解决 这 一 问题 ， 
可 以 实现 一 个 超时 机 制 ， 这 也 是 sem_timedwait() 函 
数 的 目的 。 
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System V 标 准 信号 旺 接口 


semctl() , 
semget() , 
зетор() 


sem десітоу( ), sem сіове( ), sem open() , sem unlink( ) 
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POSIX 标 准 信号 量 接口 内 核 内 部 专用 信号 量 接口 
sem init(), sem open() , sem post() зет май(), 
sem timedwait( ) , sem trywait() , sem getvalue() , 无 用 户 态 库 接口 


sys_semget, sys_semop, sys semctl, sys semtimedop sys futex 不 暴露 系统 调用 接口 

FP 8 check restart futex_wake( ) , futex requeue () , down timeout() 
21 semctl main E copy semid from user. futex lock pi () , futex unlock pi () , 一 
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图 10-118 Linux 内 部 针对 不 同 标 准 /场景 下 的 三 套 独 立 的 信号 量 实现 


信号 量 的 底层 设计 也 并 没有 考虑 这 种 情况 : 如 果 
一 个 拥有 更 高 运行 优先 级 的 任务 正在 等 待 一 个 被 具有 
低 运 行 优先 级 任务 占有 而 未 被 释放 的 锁 ， 同 时 系统 中 
还 有 其 他 中 等 运行 优先 级 的 任务 在 运行 。 由 于 一 些 操 
作 系 统 的 调度 器 总 是 会 优先 调度 具有 更 高 优先 级 的 任 
务 运行 ， 那 么 由 于 中 等 优先 级 任务 的 运行 导致 这 个 低 
优先 级 的 任务 可 能 会 长 期 无 法 得 到 调度 运行 而 有 机 会 
释放 锁 ， 从 而 阻碍 高 优先 级 的 任务 运行 ， 最 终 表现 为 
“中 等 优先 级 的 任务 反而 比 高 优先 级 的 任务 具有 更 高 
的 优先 级 ”， 最 终 影响 系统 的 整体 性 能 。 这 个 现象 被 
称 为 PI (Priority Inversion， 优 先 级 翻转 ) ， 意 即 高 优 
先 级 的 任务 被 低 优先 级 任务 占有 的 锁 而 拖累 ， 后 者 不 
被 调度 运行 会 导致 前 者 也 无 法 运行 ， 于 是 前 者 仿佛 被 
翻转 成 了 低 优先 级 。 

针对 上 述 问 题 ， 在 1980 年 人 们 实现 了 一 个 改进 的 
加 锁 方式 ， 被 称 为 互 斥 量 (Mutex, Mutual Exclusion 
的 缩写 ) 。 实 际 上 ，Mutual Exclusion 的 意思 就 是 “ 互 
斥 ”， 而 互 斥 问题 在 计算 机 发 展 史上 是 1965 年 首次 
被 详细 描述 的 ，Mutex 只 是 针对 互 斥 问题 的 一 种 实现 
方案 。 


10.3.4.2 ER (Мшех) 


Mutex 相 比 信 号 量 的 一 个 最 大 不 同 在 于 ，Mutex 
可 以 〈 但 不 必须 ， 可 用 参数 控制 ) 对 解锁 和 加 锁 的 人 
做 检查 ， 只 允许 加 锁 者 来 解锁 ， 也 就 是 每 个 锁 变 量 有 
了 各 自 的 属 主 COwner) 而 不 再 是 共用 的 。 同 时 也 可 
以 禁止 任何 任务 接连 两 次 对 同一 个 锁 变 量 加 锁 ， 从 而 
避免 自己 把 自己 死 锁 的 篮 傣 。 此 外 ， 针 对 上 述 的 优 
先 级 翻转 问题 ，Mutex 利 用 优先 级 继承 Priority Inherit 
(PD 来 解决 ，PI 的 思路 是 让 持 有 锁 的 任务 继承 那些 
正在 等 待 它 释放 锁 的 任务 中 优先 级 最 高 的 那个 优先 
级 ， 这 样 它 就 可 以 得 到 调度 从 而 后 续 将 锁 释放 。 

如 图 10-119 所 示 为 Linux 2.6.39.4 内 核 中 Mutex 


相关 部 分 内 核 函数 。 不 过 ， 在 Linux 内 核发 展 史上 ， 
从 来 没有 将 Mutex 暴 露 为 系统 调用 接口 ， 它 只 在 内 
核 中 实现 了 ， 只 将 函数 暴露 在 了 内 核 符号 表 中 ， 这 
样 可 以 供 一 些 比 如 驱动 程序 在 内 的 内 核 态 模块 来 使 
用 。 同 时 ，Linux 下 的 Mutex 也 并 没有 实现 Priority 
Inherit。Linux 从 2.5.7 版 本 内 核 开 始 使 用 了 一 种 专门 
针对 用 户 程 序 设 计 的 新 的 锁 方式 一 一 Futex， 并 暴露 
了 系统 调用 接口 ， 也 实现 了 Priority Inherit， 我 们 下 
文中 再 介绍 。 如 图 10-120 所 示 为 Linux 对 Mutex 接 口 
的 两 套 不 同 的 实现 。 

设备 驱动 程序 代码 中 经 常会 出 现 与 Semaphore 和 
Mnutex 相 关 的 内 核 函数 的 调用 ， 当 然 驱动 调用 的 都 是 
内 核 函 数 。 最 常见 的 分 别 是 down0 和 mutex_ lock0， 前 
者 多 用 于 计数 信号 量 ， 后 者 多 用 于 互 斥 锁 ， 虽 然 也 可 
以 将 Semaphore 初 始 化 为 二 值 信号 量 ， 但 是 由 于 Mutex 
的 设计 比 Semaphore 在 二 值 互 斥 方面 更 合理 ， 应 用 更 
广泛 。 不 过 多 数 时 候 驱 动 程序 处 理事 务 的 时 候 并 不 想 
被 由 于 外 部 中 断 而 让 当前 任务 被 调度 出 去 ， 也 不 想 由 
于 拿 不 到 锁 而 被 强迫 休 眼 ， 所 以 驱动 程序 多 数 时 候 会 
使 用 另 一 种 方式 来 拿 到 锁 一 Spinlock， 比 如 内 核 函 
数 spin lock пао» 


10.3.4.3 ARE ( Spinlock ) 


上 文中 介绍 的 Semaphore 和 Mutex， 其 基本 思路 都 
是 将 锁 管理 在 OS 内 核 中 实现 ， 并 暴露 系统 调用 接口 
给 用 户 态 程序 ， 用 户 程 序 调用 对 应 API 进 入 内 核 内 去 
创建 锁 、 加 锁 、 解 锁 、 试 锁 等 。 除 了 带 有 try 关 键 字 的 
函数 外 ， 其 他 函数 都 是 阻塞 调用 ， 比 如 用 户 态 的 sem_ 
waitO0、 内 核 态 的 mutex_lock0。 程 序 调用 了 这 些 函数 
后 ， 拿 不 到 锁 就 不 返回 。 

如 果 是 从 用 户 态 调 用 了 比如 sem_wait()， 其 用 户 
态 的 代码 就 被 暂停 ， 进 入 内 核 态 代 码 运行 ， 内 核 态 代 
码 负责 拿 锁 ， 如 果 拿 不 到 ， 则 该 任务 会 将 自己 放 入 
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等 待 队列 中 休眠 。 如 果 内 核 态 程序 调用 了 比如 mutex_ 
lock0， 该 函数 下 游 负责 拿 锁 ， 拿 不 到 也 会 休眠 。 也 
就 是 说 ， 由 内 核 代 码 负责 拿 锁 、 上 睡眠、 解锁 等 过 程 。 

那么 ， 是 否 可 以 用 另 一 种 方式 来 拿 锁 : 拿 不 到 就 
循环 检测 继续 拿 ， 拿 到 为 止 。 这 就 像 一 堆 人 在 哄抢 少 
量 资源 时 一 样 ， 当 然 ， 如 果 是 冬瓜 哥 可 能 会 有 奇 苑 行 
为 ， 那 就 是 默默 地 离开 ， 或 许 也 有 这 种 任务 ， 试 一 次 
拿 不 到 就 不 拿 了 ， 这 完全 取决 于 设计 目标 。 或 许 ， 可 
以 文明 点 儿 ， 拿 不 到 就 稍微 等 一 下 ， 再 拿 。 

具体 而 言 ， 假 设 锁 变量 值 为 表明 已 经 被 某 个 任 
务 锁 定 ， 值 为 0 表示 没有 任务 锁定 。 如 果 某 个 线程 进 
入 内 核 态 后 ， 内 核 态 代码 读 出 锁 变 量 欲 对 其 加 锁 (将 
锁 变 量 读 出 来 然后 减 1) ， 但 却 发 现 减 1 之 后 锁 变 量变 
为 负 值 ， 证 明 已 经 有 别人 占有 了 锁 。 它 应 该 怎么 办 ? 
有 以 下 三 种 办 法 。 

COD 不 停 地 重新 读 取 它 一 直到 它 为 0 为 止 ， 然 后 
对 其 带 锁 的 +1。 这 种 做 法 属于 Spinlock (Н.Е), 
意 即 原 地 打转 等 待 ， 也 成 为 忙 等 。 这 种 机 制 将 会 非 
常 耗费 CPU， 因 为 它 的 实现 方式 基本 就 是 while(1) 循 
环 ， 仅 当 抢 到 锁 后 才 跳 出 循环 ， 如 果 对 方 一 直 不 解 
锁 ， 那 么 其 他 等 待 锁 的 任务 会 全 速 空转 执行 ， 所 以 
Spinlock 的 最 适合 场景 是 每 个 任务 不 会 长 时 间 占 有 
锁 的 场景 。Spinlock 是 一 种 拿 锁 方式 ，Semaphore 和 
Mutex 的 底层 实现 中 有 些 地 方 就 用 了 这 种 方式 ， 比 如 
对 队列 加 锁 时 。 一 定 不 要 认为 Spinlock 是 与 Semaphore 
和 Mutex 并 列 的 某 种 锁 的 具体 实现 形式 。 

(2) 调用 yield() 类 似 函 数 ， 主 动 临时 放弃 执行 
(但 依然 处 于 RUNNING 态 而 不 要 求 被 休眠 ) 临时 让 
给 其 他 任务 执行 ， 这 相当 于 你 正在 排队 出 闸口 却 发 现 
刷 了 好 几 次 卡 刷 不 上 ， 你 临时 让 后 面 人 先 刷 ， 然 后 自 
己 择机 插入 冲刷 出 站 。 这 种 机 制 相 对 于 Spinlock 而 言 
激进 度 降低 了 ， 它 知道 先 退 一 步 ， 然 后 再 试 。 这 样 可 
以 降低 对 CPU 无 谓 的 耗费 。 

(3) 调用 sleep 类 主动 休眠 函数 将 自己 休眠 一 小 
段 时 间 ， 被 唤醒 后 继续 尝试 加 锁 ， 这 相当 于 你 刷 不 上 
卡 就 先 主动 退 到 一 边 等 上 比如 5 秒 钟 ， 然 后 再 择机 插 
入 刷卡 出 站 。 这 种 机 制 相 比 Spinlock 机 制 而 言 退让 的 
力度 更 大 了 ， 会 对 程序 响应 的 实时 性 造成 一 定 影响 ， 
为 如 果 该 线程 睡眠 到 第 3 秒 时 ， 之 前 占有 锁 的 线程 
释放 了 锁 ， 那 么 该 线程 会 空 等 两 秒 才 被 唤醒 ， 然 后 才 
能 拿 到 锁 。 

从 图 10-118 和 图 10-119 中 的 一 些 内 核 态 函数 的 具 
体 实现 中 可 以 看 出 ， 它 们 在 加 锁 、 解 锁 等 时 候 都 或 
多 或 少 地 调用 了 带 有 “spin” 关 键 字 的 函数 ， 这 些 
函数 就 是 在 实现 Spinlock， 比 如 图 10-118 中 的 down() 
函数 中 对 count 值 做 修改 之 前 ， 就 需要 调用 spin_lock_ 
irqsave(&sem->lock, flags) 对 sem->lock 加 锁 后 ， 才 能 
去 读 写 count 值 ， 而 读 写 count 值 是 为 了 对 sem 加 锁 。 所 
以 你 应 该 可 以 更 深刻 地 理解 到 ，Spinlock 只 是 一 种 拿 
到 锁 的 方式 ， 而 并 不 是 一 种 独特 的 锁 形 式 。 或 者 说 ， 


Semaphore 和 Mutex 是 在 基本 的 Spinlock 抢 锁 方式 之 
上 ,封装 了 抢 不 到 就 等 待 以 及 对 应 的 唤醒 等 机 制 ， 以 
及 Mutex 增 强 的 错误 检查 、 优 先 级 继承 等 特性 ， 不 过 
Mutex 只 支持 二 值 互 斥 。 

我 们 不 妨 看 看 如 图 10-121 所 示 的 mutex lockO 函 数 
的 底层 实现 原理 。 可 以 发 现 它 在 内 核 中 先 尝试 采用 带 
锁 的 原子 指令 decl 来 拿 锁 〈 这 相当 于 Spinlock 底 层 锁 采 
用 的 方式 ， 只 不 过 Spinlock 是 拿 不 到 循环 继续 拿 ) ， 如 
果 拿 不 到 则 调用 _mnutex lock slowpathO0， 其 中 调用 了 
. mutex lock common0， 后 者 会 将 当前 任务 休眠 。 

而 如 果 是 在 内 核 态 运行 的 模块 ， 比 如 驱动 程序 ， 
比如 一 些 内 核 线程 ， 这 些 代 码 可 以 直接 使 用 原始 的 
Spinlock 相 关 的 函数 来 实现 忙 等 待 加 锁 ， 可 以 辅助 以 
preempt disable0， 甚 至 local irq disable0， 来 确保 当前 
CPU 核心 全 速 循环 检测 锁 变量 最 后 拿 到 锁 才 休止 。 

由 于 Spinlock 底 层 无 非 就 是 第 6 章 中 介绍 过 的 带 
锁 的 访 存 指令 ， 或 者 原子 运算 指令 ， 而 这 些 指令 并 
非特 权 指令 ， 是 可 以 在 用 户 态 运行 的 。 既 然 如 此 ， 
为 何不 直接 在 用 户 态 来 Spinlcok 呢 ? 在 用 户 态 实现 锁 
会 避免 每 次 尝试 加 解锁 都 去 系统 调用 而 导致 的 性 能 
问题 。 

完全 可 以 。glibc 库 提供 了 pthread_spin_xxxx() 系 
列 函数 用 于 实现 用 户 态 的 Spinlock。 在 glibe 库 中 ， 
pthread_spin_lock0 函 数 用 于 对 lock 变 量 进行 自 旋 抢 锁 
操作 ，pthread_spin_unlockO 则 用 来 释放 锁 。pthread_ 
spin_trylockO 则 是 一 个 非 阻塞 调用 ， 它 先 尝 试 加 锁 ， 
但 是 如 果 失 败 则 返回 错误 码 ， 而 并 不 去 自 旋 。 

Spinlock 有 一 些 副 作用 ， 比 如 拿 到 锁 的 任务 如 果 
一 旦 由 于 某 些 原因 被 调度 切 出 了 ， 那 么 其 他 任务 就 
得 等 待 更 长 时 间 ， 不 仅 如 此 ， 如 果 被 切入 的 新 任务 
需要 等 待 被 切 出 任务 释放 的 锁 ， 那 么 这 个 新 切入 的 
任务 本 次 上 台 除 了 空转 耗费 CPU 别 无 其 他 动作 ， 纯 属 
浪费 。 总 之 ， 如 果 拿 到 锁 后 仅 做 非常 少 的 事情 ， 比 
如 向 某 个 共 向 队列 中 加 入 一 条 信息 ， 然 后 就 解锁 ， 
那么 Spinlock 还 是 比较 合适 的 。 所 以 ， 在 用 户 态 实现 
Spinlock 会 导致 严重 性 能 问题 ， 所 以 目前 几乎 没有 应 
用 。 所 以 ， 原 本 是 想 避 免 系 统 调用 导致 的 性 能 问题 ， 
现在 却 引发 了 另外 的 性 能 问题 。 

而 内 核 态 的 Spinlock 其 底层 会 做 一 件 用 户 态 做 不 
到 的 事情 : 关闭 抢占 ， 也 就 是 内 核 态 Spinlock 的 代码 
可 以 先 调 用 preempt_ disable0 内 核 函 数 ， 该 函数 会 导致 
即便 是 CPU 收 到 了 外 部 中 断然 后 执行 了 scheduleO 调 度 
器 ， 后 者 依然 会 调度 上 一 次 被 中 断 的 那个 任务 而 不 会 
切 到 别 的 任务 ， 这 样 就 好 像 该 任务 一 直 在 运行 ， 其 他 
任务 永远 得 不 到 运行 ， 除 非 打开 抢占 。 这 样 ， 该 任务 
加 锁 之 后 就 不 会 被 切 出 ， 可 以 迅速 处 理 临界 区 数据 ， 
然后 释放 锁 ， 避 免 了 上 文中 提 到 过 的 让 其 他 任务 无 谓 
等 待 的 问题 。 有 时 候 Spinlock 甚 至 还 会 连 CPU 对 中 断 
的 响应 也 一 起 临时 关 掉 ， 释 放 锁 之 后 再 打开 ， 来 保证 
性 能 。 
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式 让 多 个 进程 之 间 共 享 同一 块 物 理 内 存 ， 然 后 将 锁 变 ”图 10-122 所 示 为 do_futex() 函 数 实现 以 及 其 下 游 的 调 
量 放置 在 这 个 区 域 中 即 可 被 多 个 进程 同时 访问 。sys ”用 链 。 

futex0 中 的 uaddr 参 数 存 放 的 是 用 于 存放 锁 变量 的 任务 Futex 中 实现 了 优先 级 继承 特性 ， 函 数 名 结尾 带 有 
虚拟 内 存 地 址 ， 该 地 址 中 存放 的 就 是 锁 变量 。 参 数 op “РГ 的 函数 就 是 这 些 特 性 的 入 口 函数 。Futex 的 更 
用 于 存放 系统 调用 的 具体 命令 ， 这 些 命令 会 被 内 核 中 加 底层 的 实现 方式 由 于 篇 幅 所 限 请 大 家 自行 到 futex.c 
的 do_futex() 函 数 解 析 并 判断 调用 哪个 下 游 函 数 。 如 。” 源 文件 中 了 解 。 


long do futex(u32 user *uaddr, int op, u32 val, ktime t *timeout, u32 user *uaddr2, u32 val2, u32 val3) 
( 
int ret = -ENOSYS, ста = ор & FUTEX СМО MASK; 
unsigned int flags = 0; 
(ор & FUTEX PRIVATE FLAG)) flags |- FLAGS SHARED; 
if (op & FUTEX CLOCK REALTIME) ( flags |= FLAGS CLOCKRT; 
if (cmd !- FUTEX WAIT. ВІТЅЕТ && ста !- FUTEX WAIT REQUEUE PI) return -ENOSYS; 


switch (cmd) ( 


case FUTEX WAIT: val3 = FUTEX BITSET MATCH ANY; 

case FUTEX WAIT BITSET: ret = futex wait(uaddr, flags, val, timeout, val3); break; 

case FUTEX WAKE: val3 = FUTEX BITSET MATCH ANY; 

case FUTEX WAKE BITSET: ret = futex wake(uaddr, flags, val, val3); break; 

case FUTEX REQUEUE: ret = futex requeue(uaddr, flags, uaddr2, val, val2, NULL, 0); break; 

case FUTEX CMP REQUEUE: ret = futex requeue(uaddr, flags, uaddr2, val, val2, &val3, 0); break; 

case FUTEX WAKE OP: ret = futex wake op(uaddr, flags, uaddr2, val, val2, val3); break; 

case FUTEX LOCK PI: if (futex cmpxchg enabled) ret = futex lock pi(uaddr, flags, val, timeout, 0); break; 
case FUTEX UNLOCK РІ: if (futex cmpxchg enabled) ret = futex unlock pi(uaddr, flags); break; 

case FUTEX TRYLOCK РІ: if (futex cmpxchg enabled) ret = futex lock pi(uaddr, flags, 0, timeout, 1) break; 


case FUTEX WAIT REQUEUE РІ: val3 = FUTEX BITSET. MATCH ANY; 
ret = futex wait requeue pi(uaddr, flags, val, timeout, val3,uaddr2); break; 
case FUTEX CMP REQUEUE РІ: ret = futex requeue(uaddr, flags, uaddr2, val, val2, &val3, 1); break; 


default: 
ret = -ENOSYS; 
) 
return ret; 
} 
hrtimer init on stack 
hrtimer init <іеерегі 
hrtimer set expires range ns 
futex wait setup 
set current state 
~ plist_add 
hrtimer start expires 
г ——lspin unlock 
hrtimer active 
likely 
plist node empty 
schedule 
- set current state 
ido futex 


|“ gel task struct 
图 10-122 ”do_futex0 函 数 实现 以 及 其 下 游 的 调用 链 示 意图 
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由 于 任务 之 间 先 在 用 户 态 尝试 加 锁 ， 所 以 锁 变 量 
要 实现 在 用 户 态 ，Futex 系 统 调用 接口 其 实 只 负责 那 
些 抢 不 到 锁 的 任务 的 善后 工作 ， 也 就 是 让 它们 统统 休 
眼 ， 以 及 当 任 务 解锁 时 利用 Futex 接 口 通知 内 核 唤醒 一 
个 任务 继续 运行 。 所 以 用 户 态 需要 提供 整个 过 程 中 上 
半 部 分 的 实现 库 。 

在 2002 年 同一 年 ，glibc 库 发 布 的 版 本 中 就 利用 
sys_futex 接 口 封 装 出 了 包含 pthread_mutex_init()、 
pthread mutex lock()、 pthread mutex trylock()、 
pthread mutex unlock(), pthread mutex_destroy0 这 几 
个 函数 的 接口 。 其 虽然 以 Mutex 命 名 ， 但 是 底层 是 利 
用 Futex 实 现 的 ， 可 能 是 不 想 再 向 用 户 态 暴露 过 多 的 不 
同名 称 的 概念 。 请 注意 ， 这 套 Mutex 库 与 Linux 内 核 中 
mutex.c 文 件 中 实现 的 Mutex 是 完全 两 套 东 西 ， 后 者 只 
能 在 内 核 态 调用 (功能 上 相当 于 一 个 具有 Owner 的 二 


Fast Mutex 
pthread mutex t mutex; 


pthread mutex init (&mutex, NULL); 


HEFE) 。 至 于 glibc 库 中 这 些 函 数 的 具体 实现 有 兴 
趣 的 读者 可 以 自行 了 解 。 

前 文中 提 到 过 正统 的 Mutex 实 现 应 当 实 现 属 主 检 
查 〈 没 持 有 锁 的 任务 尝试 解锁 ) 、 重 入 检查 〈 没 解 
锁 就 再 次 加 锁 而 导致 死 锁 ) 特性 ， 这 两 个 特性 被 实 
现在 了 pthread_mutex 库 中 。 如 图 10-123 所 示 ， 通 过 给 
出 参数 _ERRORCHECK_ 和 _REVURSIVE 实现 。 另 
外 ， 这 套 库 还 实现 了 一 种 Adaptive 加 锁 特性 ， 给 出 _ 
ADAPTIVE 参数 的 话 ， 当 任务 尝试 加 锁 时 ， 如 果 失 
败 ， 会 先 Spinlock 几 次 ， 再 不 行 ， 才 调用 sys_futex() 接 
口 到 内 核 执行 休眠 ， 如 果 不 给 出 该 参数 ， 则 只 尝试 一 
次 ， 失 败 就 到 内 核 去 休眠 。 后 者 的 方式 显然 会 产生 潜 
在 的 性 能 问题 ， 也 就 是 说 ， 如 果 一 帮 人 在 哄抢 某 个 资 
源 时 ， 所 有 人 如 果 都 很 文明 礼让 ， 此 时 反而 会 降低 性 
能 了 。 


Error Checking / Recursive / Adaptive Mutex 
pthread mutex t mutex; 
pthread mutexattr t attr; 
pthread mutexattr init (&attr); 


. RECURSIVE - 


pthread mutexattr settype (&attr, PTHREAD MUTEX FRRORCHECK NP); 
pthread mutex init (&mutex, &attr); 


_АрбАРТМЕ_ 


图 10-123 ”glibc 中 的 fast/error-checking/recursive/adaptive 类 型 的 Mutex 参 数 一 览 


10-124 中 列 出 了 部 分 glibc 中 pthread 相 关 的 用 户 
态 库 函数 供 总 结 参 考 。 由 于 Futex 的 实现 比较 合理 和 全 
面 ， 所 以 在 glibc 库 中 的 POSIX 标 准 下 的 信号 量 、 互 斥 
量 底层 都 通过 sys_futex 调 用 内 核 中 的 Futex 来 实现 。 图 
中 的 pthread_cond_xxx() 函 数 也 是 通过 Futex 实 现 的。 


Thread call Description 
pthread create() 创建 线程 
pthread exit() 退出 当前 线程 
pthread join) 阻塞 等 待 其 他 线程 退出 ， 类 似 于 wait( ) 
pthread spin lock() 创建 并 抢占 一 个 自 旋 锁 
pthread spin unlock() 释放 自 旋 锁 
pthread spin trylock 试探 自 旋 锁 
pthread spin destroy() 销毁 自 旋 锁 
pthread mutex init() KERE 
pthread mutex destroy) #8858 
pthread mutex lock() 抢占 加 锁 该 互 斥 量 
pthread mutex trylock() 试探 该 互 斥 量 
pthread_mutex_unlock() 释放 解锁 该 互 斥 量 
pthread cond init() 创建 条 件 量 
pthread cond destroy() 销毁 条 件 量 
pthread cond wait() 等 待 条 件 量 
pthread cond signal() 唤醒 等 待 该 条 件 的 一 个 任务 


图 10-124 ”glibc 提 供 的 线程 管理 相关 部 分 函数 一 览 


10.3.4.5 条 件 量 ( Condition ) 


抢 不 到 锁 就 休眠 ， 锁 可 用 了 就 被 唤醒 ， 这 是 
Semaphore 和 Mutex/Futex 的 逻辑 。 那 么 很 自然 想到 另 
一 种 逻辑 ， 某 个 条 件 达 不 成 就 休 眼 ， 一 旦 达成 了 就 被 
唤醒 。 这 就 是 条 件 量 。 假 设 有 某 个 值 x， 有 两 个 线程 
在 独立 地 对 x 做 变更 ， 并 要 求 ， 只 要 x 的 值 大 于 100， 
则 用 第 三 个 线程 在 屏幕 上 输出 “WARRNING! ”并 
将 x 清 零 ， 这 三 个 线程 持续 运行 。 

就 这 个 场景 ， 我 们 大 致 可 以 思考 出 一 个 模型 : 前 
两 个 线程 通过 加 锁 进 入 临界 区 ， 改 变 x， 确 保 x 同 一 时 
刻 只 能 由 其 中 一 个 线程 变更 ， 同 时 ， 第 三 个 线程 也 通 
过 加 锁 ， 不 停 地 检测 x 的 值 ， 大 于 100 就 报警 。 假 设 多 
数 时 候 x 的 值 并 不 大 于 100， 那 么 线程 3 不 断 地 循环 检 
测 x 就 是 无 谓 的 消耗 ， 影 响 性 能 ， 所 以 在 线程 3 中 插入 
主动 睡眠 的 sleep0 函 数 ， 每 隔 一 段 时 间 检 测 一 次 x。 如 
图 10-125 左 侧 所 示 。 

图 中 左 侧 的 实现 ， 看 上 去 没有 什么 问题 。 但 是 
如 果 要 求 每 次 x 的 值 大 于 100 都 必须 被 记录 下 来 ， 不 能 
漏 掉 任何 一 个 ， 那 么 左边 的 实现 就 有 问题 了 ， 因 为 线 
程 1 和 2 在 改变 x 的 时 候 并 不 会 顺便 判断 x 的 值 并 通知 线 
程 3， 只 能 靠 线程 3 随机 地 加 锁 并 检测 x 的 值 ， 一 旦 线 
程 3 没 抢 到 锁 ， 那 么 就 会 漏 掉 对 x 的 判断 ， 从 而 漏 掉 记 
录 ， 更 不 用 说 线程 3 还 需要 时 不 时 sleep 一 下 了 ， 会 漏 
掉 更 多 。 

为 此 ， 我 们 改 用 图 中 间 的 逻辑 ， 现 在 ， 线 程 1/2 主 
动 判断 x*， 每 发 现 大 于 100， 则 通知 内 核 唤醒 线程 3。 
线程 3 被 唤醒 后 尝试 对 x 加 锁 ， 成 功 后 便 跳 回 while 开 


第 10 章 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 到 天 天时 


头 继续 判断 x 是 否 小 于 100， 如 果 不 是 则 跳出 循环 执行 appen_ 
logO 将 x 值 记录 到 log 中 ， 然 后 对 x 清 零 并 解锁 。 如 果 x 值 小 于 
100， 则 解锁 xz， 然后 将 自己 休眠 到 一 个 名 为 X 的 当代 队列 中 
睡眠 。 线 程 3 的 解锁 会 导致 线程 1 和 2 之 一 抢 锁 成 功 ， 然 后 继 
续 变更 x， 然 后 唤醒 线程 3。 线 程 3 唤醒 后 会 继续 对 x 加 锁 并 判 
断 x 是 否 小 于 100， 循 环 上 述 步骤 。 如 果 把 方 框 中 的 代码 封装 
实现 成 函数 的 话 ， 就 对 应 着 glibc 中 的 pthread_cond_waitO0 和 
pthread_cond_signal/broadcast() 函 数 ， 函 数 的 参数 之 一 是 条 
件 标记 ， 该 标记 实际 上 是 一 个 结构 体 ， 其 中 包含 用 于 控制 上 
述 这 套 条 件 触发 睡眠 、 唤 醒 所 需要 的 一 些 关键 参数 ， 其 又 被 
称 为 条 件 变量 ， 或 者 条 件 量 。 

但 是 由 于 唤醒 目标 任务 是 一 个 异步 过 程 ， 也 就 是 仅仅 是 
将 其 状态 置 为 TASK_RUNNING 然 后 加 入 运行 队列 ， 但 是 什 
么 时 候 这 个 任务 运行 起 来 ， 却 是 完全 不 可 控 也 不 可 知 的 。 所 
以 ， 仔 细 观 察 该 代码 会 发 现 ， 线 程 1/2 唤 醒 线程 3 之 后 ， 线 程 
1/2 自 身 会 将 x 解锁 ， 然 后 跳 转 到 循环 头 部 继续 尝试 对 x 加 锁 ， 
\ 而 线程 3 运行 起 来 之 后 第 一 个 动作 也 是 尝试 对 x 加 锁 ， 谁 最 终 
| 抢 到 锁 是 不 可 预知 的 ， 如 果 是 线程 1/2 拿 到 锁 ， 那 么 线程 3 拿 
不 到 锁 会 被 再 次 休眠 ， 但 是 休眠 在 内 核 中 与 1ock 对 应 的 等 待 
队列 上 ， 而 不 是 与 条 件 量 对 接 的 等 待 队 列 上 。 那 么 ， 线 程 1/2 
再 次 改变 了 x， 尝 试 唤 醒 线程 3 时 却 发 现 与 条 件 量 对 接 的 等 待 
队列 上 为 空 ， 则 本 次 不 唤醒 任何 任务 ， 继 续 运 行 ， 那 么 本 次 
的 x 值 就 会 被 漏 记录 。 

这 种 情况 被 称 为 竞争 (Race Condition) 。 竞 争 会 导致 程 
序 运行 结果 不 可 知 而 失去 控制 最 后 出 错 。 如 果 要 让 线程 3 不 漏 
下 任何 一 个 复合 条 件 的 x， 可 以 改 为 如 图 10-126 所 示 的 做 法 ， 
再 加 一 个 条 件 量 ， 用 这 个 条 件 量 来 实现 只 有 当 线 程 3 记录 完 x 之 
后 ， 线 程 112 才 能 继续 运行 ， 也 就 是 让 线程 /2 唤醒 线程 3 后 ， 自 
己 睡 眠 ， 让 醒 来 的 线程 3 做 完事 之 后 再 去 唤醒 线程 1/2。 

上 述 只 给 出 了 伪 代 码 ， 以 及 部 分 与 条 件 量 相关 的 函数 ， 
实际 上 使 用 条 件 量 时 还 需要 做 一 些 初始 化 工作 等 ， 篇 幅 所 限 
不 多 介绍 了 。 另 外 ， 上 述 代 码 本 身 其 实 也 是 没有 实用 价值 
的 ， 非 常 低 效 ， 仅 为 了 说 明 条 件 变量 的 使 用 方式 。 本 例 中 ， 
线程 1/2 必 须 等 待 线程 3 执行 到 某 个 点 之 后 才能 运行 ， 这 种 依 
赖 关系 ， 被 称 为 任务 之 间 的 同步 Synchronization) 。 


10.3.4.6 Æ (Completion ) 


早期 的 Linux 中 由 于 没有 对 Semaphore 本 身 加 锁 (前 文中 
介绍 过 的 struct semaphore 结 构 体 中 第 一 个 成 员 就 是 lock， 但 早 
期 并 没有 它 ) ， 可 能 会 有 多 个 任务 同时 down 或 者 up 信号 量 而 导 
致 问 题 ， 考 虑 到 当时 Semaphore 已 经 被 广泛 应 用 ， 加 上 实现 信号 
量 的 锁 的 话 要 考虑 很 多 不 同 CPU 架 构 ， 所 以 干脆 新 开发 了 一 套 
带 锁 的 类 似 信号 量 的 实现 ， 起 名 为 Completion 〈 完 成 量 ) ， 只 用 
在 内 核 态 内 部 ， 不 对 外 提供 系统 调用 接口 。 
之 所 以 取 名 完成 量 是 因为 其 更 加 适合 用 在 多 个 任务 之 间 
等 待 条 件 睡眠 和 条 件 达成 后 的 唤醒 ， 比 如 硬盘 IO 结束 之 后 ， 
利用 完成 量 方式 来 唤醒 需要 本 次 IO 数据 的 那些 任务 。 与 信和 号 
量 一 样 ， 完 成 量 也 是 一 个 结构 体 ，struct completion {unsigned 
int done; wait queue head t wait; }， 其 包含 一 个 done 变 量 用 于 
计数 ， 以 及 一 个 附属 的 等 待 队 列表 头 〈 已 经 在 10.3.2 节 中 介 
= 绍 过 ) 。 使 用 完成 量 之 前 ， 先 对 其 初始 化 ， 比 如 static inline 


通知 内 核 休 眠 本 任务 到 条 件 标记 的 休眠 队列 上 ; 


mio } 
signal( 条 件 标记 ) 
{ 通知 内 核 唤醒 一 个 位 于 条 件 标记 休眠 队列 


上 的 任务 ; } 


read cond 


{ 通知 内 核 唤醒 全 部 位 于 条 件 标记 休眠 队列 


上 的 任务 ; } 


(pthread тиќех ипіоск( іс); 
pthread cond broadcast( 条 件 标记 ) 


pthread mutex lock( 


pth 


+ 


s 
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pthread mutex unlock(lock); 
通知 内 核 休眠 本 任务 到 条 件 X 的 休眠 队列 上 ; | 


pthread mutex lock(lock); 


le(x«100) 


pthread mutex lock(lock); 
pthread mutex unlock(lock); 


append log(x); 


х=0; 


thread3() 
(while(1) { 
whi 
) 


time); 


func 1(5у5 
7100) 
id mutex unlock(lock); ) 
pthread mutex unlock(lock); ) 
图 10-125 条 件 量 的 实现 原理 


func 2(sys time); 
if(x» -100) 
通知 内 核 唤醒 等 待 条 件 X 的 任务 ; 


pthread mutex lock(lock); 


if(x> 
pthrea 


通知 内 核 唤醒 等 待 条 件 X 的 任务 ; 


pthread mutex lock(lock); 


х= 


thread2() ( while(1)( 
x: 


thread1() { while(1)( 


) 


0; 
pthread mutex unlock(lock); 


0; 
pthread mutex unlock(lock) 
sleep(50); } 


printf( "WARRNING!" ); 


{ pthread mutex lock(lock); 
Их >= 100) 
х 
sleep(50); 
else( x: 


thread3() ( 
while (1) 


pthread mutex lock(lock); 
func. (sys time); 
pthread mutex unlock(lock); ) 
pthread mutex lock(lock); 
func 2(sys time); 
pthread mutex unlock(lock)) } 


х 
х 


thread2( ) 


thread1( ) 
while(1) ( 
( 


while(1)( 


) 
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thread1() { while(1)( 
pthread mutex lock(lock); 
x-func 1(sys time); 
ІҚх>-100) 
pthread cond signal(X); 
pthread cond wait(Z); 
pthread mutex unlock(lock); ) 

) ) 


if(x» 2100) 


thread2() { while(1)( 
pthread mutex lock(lock); 
x-func 2(sys time); 


pthread cond signal(X); 
pthread cond wait(Z); 
pthread mutex unlock(lock); ) 


thread3() (while(1) { 
pthread mutex lock(lock); 
if(x«100) 
pthread cond wait(X.lock) 
append log(x); 
pthread mutex unlock(lock); 
pthread cond signal(Z) 


图 10-126 用 两 个 条 件 量 来 实现 严格 同步 


void init completion(struct completion *x) { x->done = 
0; init waitqueue head(&x-^wait); } 。 


void. sched wait for completion(struct completion *x) ; 

unsigned long .. sched wait for completion timeout(struct 
completion *x, unsigned long timeout) ; 

int. sched wait for completion interruptible(struct 
completion *x) ; 

long |. sched wait for completion interruptible 
timeout(struct completion *x, unsigned long timeout) ; 

int. sched wait for completion killable(struct completion 
); 

long _ sched wait for completion killable timeout(struct 
completion *x, unsigned long timeout) ; 


那些 需要 等 待 条 件 的 任务 调用 上 述 函数 之 后 ， 会 
尝试 将 done 变 量 减 1， 如 果 已 经 是 0(， 则 进入 睡眠 ， 将 
自己 加 入 对 应 的 等 待 队列 。 而 其 他 任务 完成 了 某 个 工 
作 时 ， 将 对 应 队列 头 的 completion 结 构 体 中 的 done 变 量 
加 1， 然 后 唤醒 队列 中 的 任务 。 有 下 列 不 同 功能 的 唤醒 
函数 ， 从 名 字 就 可 以 看 出 它们 的 区 别 ， 是 唤醒 一 个 还 
是 全 部 ， 因 为 可 能 有 多 个 任务 在 等 待 同一 个 条 件 。 


extern void complete(struct completion *); 
extern void complete all(struct completion *); 


诸多 外 部 设备 驱动 程序 采用 了 完成 量 方式 来 同步 。 
10.3.4.7 ” 读 写 锁 (RWlock ) 和 RCU 锁 


如 果 某 个 任务 对 某 个 资源 加 锁 ， 仅 仅 是 为 了 读 
取 该 资源 ， 同 时 ， 其 他 任务 有 些 也 只 想 读 取 而 不 是 写 
入 该 资源 的 话 ， 那 么 对 其 独占 加 锁 就 没什么 道理 。 最 
理想 的 方式 是 ， 对 该 资源 加 一 个 “ 读 锁 ”， 也 就 是 允 
许 其 他 人 读 对 应 的 资源 ， 不 允许 写 。 当 然 ， 利 用 锁 来 
形成 互 斥 的 方法 ， 都 是 防 君 子 而 防 不 了 小 人 ， 也 就 是 
说 ， 那 些 想 要 写 入 资源 的 任务 必须 先 尝试 加 锁 并 声明 
“我 要 写 ”， 但 是 会 被 休眠 ， 因 为 该 资源 目前 正在 
读 锁 的 保护 下 ; 但 是 如 果 有 任务 加 锁 时 声明 “我 只 
读 ”， 那 么 它 就 可 以 被 通过 。 

在 实际 的 实现 中 ， 会 考虑 更 多 的 优化 ， 比 如 一 旦 
某 个 任务 要 加 写 锁 而 失败 ， 则 后 续 如 果 有 更 多 的 任务 
即便 是 想 加 读 锁 ， 也 会 被 禁止 ， 因 为 此 时 已 经 有 人 想 
要 写 该 资源 而 不 得 不 阻塞 ， 那 就 不 要 让 这 个 写 操作 等 


待 的 更 久 ， 所 以 拒绝 其 他 任务 继续 访问 ， 等 当前 任务 
把 读 锁 也 去 除 之 后 ， 再 来 唤醒 写 者 ， 避 免 该 写 者 被 饿 
着 。 如 果 某 个 资源 正在 一 个 写 锁 的 保护 下 ， 那 么 其 他 
任务 不 管 是 尝试 再 加 读 锁 还 是 写 锁 ， 都 不 能 成 功 。 
这 套 读 写 锁 机 制 ， 底 层 依然 可 以 使 用 内 核 提供 的 
Futex 来 完成 。glibc 中 提供 了 如 下 相关 的 接口 函数 。 


int pthread rwlock init(pthread rwlock t *restrict rwlock, 
const pthread rwlockattr t *restrict attr); 

int pthread rwlock destroy(pthread rwlock t *rwlock); 

int pthread. rwlock rdlock(pthread rwlock t *rwlock); 

int pthread rwlock wrlock(pthread rwlock t *rwlock); 

int pthread rwlock unlock(pthread rwlock t *rwlock); 

int pthread. rwlock tryrdlock(pthread rwlock t *rwlock); 

int pthread, rwlock, trywrlock(pthread, rwlock t *rwlock); 

int pthread rwlock timedrdlock(pthread rwlock t *restrict 
rwlock, const struct timespec *restrict abs timeout); 

int pthread rwlock timedwrlock(pthread rwlock t *restrict 
rwlock, const struct timespec *restrict abs timeout); 


可 以 看 出 ， 在 读 写 锁 场景 下 ， 只 要 资源 被 加 了 写 
锁 ， 那 么 其 他 任务 就 无 法 访问 该 资源 ， 这 在 有 些 时 候 
过 于 严 苛 了 ， 有 一 些 场景 下 并 不 要 求 这 种 严格 的 一 致 
性 。RCU (Read Copy Update) 实现 了 这 样 一 种 宽松 
HESS 允许 读 写 同 时 进行 ， 但 是 共享 资源 被 改变 之 
后 ， 该 资源 的 旧 值 不 能 被 删 掉 ， 那 些 在 该 资源 被 变更 
之 前 拿 到 读 锁 的 任务 依然 会 读 到 旧 值 ， 而 那些 在 资源 
变更 之 后 拿 到 读 锁 的 任务 则 会 读 到 新 值 。 

还 有 一 类 Sequence Lock， 篇 幅 所 限 不 多 描述 ， 
相关 细节 请 读者 自行 了 解 。 最 后 提 一 下 ， 凡 是 非 自 旋 
锁 ， 意 味 着 抢 不 到 锁 就 会 休眠 ， 同 时 也 就 意味 着 解锁 
时 必然 伴随 着 唤醒 其 他 任务 的 动作 ， 也 就 是 说 ， 只 
要 是 可 休眠 的 锁 ， 其 解锁 函数 下 游 必 定 会 调用 try to 
wake про. 


10.4 ”任务 调度 基本 框架 


任务 调度 ， 简 单 地 说 ， 就 是 内 核 执 行 sSchedule0 函 
数 ， 该 函数 从 系统 内 所 有 任务 中 挑 出 一 个 合适 的 任务 
然后 switch to 到 那个 任务 运行 。 这 个 过 程 的 核心 之 处 
在 于 三 个 方面 。 第 一 是 什么 时 候 会 发 生 任务 切换 〈 调 


度 ) ， 都 有 哪些 因素 触发 任务 切换 ， 第 二 是 
如 何 将 系统 中 的 所 有 任务 的 信息 描述 、 组 织 
起 来 ， 以 供 schedule0 函 数 去 顺藤摸瓜 按 图 索 
BR, БИН EAM, ИЖ 
构 ， 或 者 通俗 点 儿 说 ， 填 一 堆 追 踪 表 ， 表 里 
需要 追踪 比如 某 个 任务 的 运行 状态 、 运 行 了 
多 长 时 间 了 等 大 量 的 信息 ; 第 三 是 scheduleO 
内 部 的 算法 ， 如 何 做 到 更 加 有 效 、 公 平地 调 
度 各 种 类 型 的 任务 ， 使 得 CPU 利 用 率 得 到 最 
大 化 。 这 三 个 方面 是 本 节 的 思路 导向 。 


10.4.1 任务 的 调度 时 机 


所 谓 “ 调 度 ”， 在 OS 内 核 领域 有 两 层 
意思 ， 第 一 层 意思 是 当前 任务 被 阻塞 /休眠 
/睡眠 了 ， 切 换 到 另 一 个 任务 运行 ， 那 么 人 
们 常 说 当前 任务 被 调度 了 ; 第 二 层 意 思 是 说 
schedule0 〇 函数 下 游 的 pick_next_task0 〇 函数 下 
游 的 各 种 调度 算法 从 当前 未 阻塞 的 任务 中 选 
一 个 出 来 运行 的 过 程 。 当 然 ， 结 果 也 有 可 能 
是 依然 运行 之 前 被 打 断 的 任务 。 

程序 在 运行 时 可 以 主动 要 求 让 出 CPU， 
自己 不 想 运 行 了 ， 休 息 一 会 儿 。 难 道 给 你 
CPU 用 你 还 不 想 要 了 ? 举 个 最 简单 的 例子 ， 
shell 程 序 运行 时 输出 的 命令 行 闪烁 的 光标 ， 
假设 设计 为 每 秒 闪烁 一 次 ， 那 么 ， 程 序 需要 
设置 一 个 定时 器 (通过 sys_timer_ settime0 系 统 
调用 ) 并 给 出 定时 时 间 ， 内 核 会 调用 时 钟 硬 
件 底层 驱动 将 对 应 的 值 写 入 后 者 的 寄存 器 ， 
后 者 自动 计时 并 在 计时 到 达 时 发 出 中 断 。 那 
么 程序 设置 完 这 个 定时 器 之 后 ， 应 该 怎么 办 
呢 ? 对 于 shell 程 序 来 讲 它 什么 都 不 能 干 ， 必 须 
暂停 执行 (通过 sys_pause0 系 统 调用 ) ， 等 待 
定时 器 中 断 发 出 后 ， 再 继续 执行 ， 也 就 是 向 
屏幕 上 相同 位 置 再 输出 一 个 光标 字符 〈 或 者 
输出 一 个 空格 字符 从 而 灭 掉 光标 ) 。 整 个 程 
序 类 似 这 种 逻辑 ，while(1){ 读 键盘 码 并 输出 ; 
print 光 标 ;设置 1 秒 定时 ， 休 眠 ;print 空 格 ; 
设置 1 秒 定时 ; 休眠 ，}。 如 果 去 掉 定时 和 休 
眼 的 话 ， 那 么 光标 会 以 CPU 的 最 高 运行 速度 
全 速 处 理 导致 不 断 的 频 闪 ， 由 于 视觉 暂 留 可 
能 永远 停止 在 屏幕 上 ， 不 内 了 。 

那么 ， 程 序 休 眠 期 间 ，CPU 都 在 干什么 
呢 ? 本 书 前 面 章节 中 提 到 过 ，CPU 只 要 还 在 
加 电工 作 ， 就 必须 做 点 儿 什么 ， 也 就 是 必须 
运行 某 个 任务 ， 哪 怕 是 idle 任 务 。 所 以 ， 某 
个 程序 在 通知 内 核 休眠 自己 之 后 ， 内 核 一 定 
要 调用 schedule0 切 换 到 其 他 任务 执行 。 

如 图 10-127 所 示 ， 程 序 可 以 主动 要 求 
内 核 把 自己 休眠 ， 也 可 以 由 于 执行 了 一 些 
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图 10-127 调度 时 机 示意 图 


TB 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


不 得 不 把 自己 休眠 的 系统 调用 而 被 动 休眠 ， 它 们 最 终 
都 会 走 到 schedule() 这 个 入 口 。 也 有 可 能 突然 接收 到 
外 部 中 断 ， 比 如 典型 的 时 钟 中 断 ， 在 中 断 处 理 程序 流 
FEH, timer _interruptO 函 数 下 游 调 用 链 中 会 计算 当前 
被 中 断 的 任务 已 经 运行 了 多 长 时 间 ， 是 否 已 经 超出 
为 它 分 配 的 时 间 片 ， 如 果 超 出 了 ， 就 将 本 任务 thread_ 
info->flags 字 段 中 的 need_resched 位 置 1， 当 中 断 执行 
Siret from intr 宏 的 时 候 ， 会 检测 任务 thread info 中 对 
应 标记 看 看 是 否 有 未 完成 工作 ， 如 果 是 ， 则 跳 转 到 
work pending 标 记 处 运行 ， 后 者 判断 是 否 是 由 于 need_ 
resched 标 记 被 设置 而 导致 有 未 完成 工作 ， 如 果 是 ， 则 
跳 转 到 call scheduleO 函 数 直接 切换 任务 ; 如果 不 是 ， 
则 一 定 是 由 于 有 信号 待 处 理 ， 则 跳 转 到 work notifysig 
标记 处 运行 。 

当然 ， 还 有 更 多 因素 会 触发 将 need_resched 位 置 
位 ， 比 如 中 断 期 间 唤醒 了 某 个 更 高 优先 级 的 任务 ， 则 
需要 将 当前 任务 的 need_resched 位 置 1。 这 里 可 能 有 个 
疑问 ， 为 什么 中 断 期 间 如 果 发 现 有 必要 切 到 其 他 任务 
运行 的 话 ， 却 不 直接 调用 schedule() 切 到 目标 任务 ， 
而 是 要 先 给 当前 任务 贴 个 need_resched 标 签 呢 ? 主要 
是 两 个 原因 : 第 一 是 用 这 种 方式 可 以 统一 风格 ， 有 时 
候 中 断 服务 程序 还 有 其 他 工作 要 做 ， 想 都 做 完了 最 后 
再 统一 切换 ， 所 以 先 设置 一 个 标签 登记 一 下 。 第 二 是 
Linux 内 核 源码 在 被 编译 时 有 些 不 同 的 控制 参数 ， 有 
些 参数 可 能 会 将 内 核 编译 成 不 允许 在 任务 的 内 核 态 执 
行 时 发 生 中 断后 强制 切换 到 其 他 任务 ， 也 就 是 不 允许 
内 核 态 抢占 ， 那 么 此 时 就 只 能 先 设 置 need_resched， 
后 续 再 说 。 当 然 ， 如 果 内 核 被 编译 为 允许 内 核 态 抢 
占 ， 那 么 也 完全 可 以 不 检查 need_resched 是 否 为 1， 
直接 调用 schedule()， 但 是 这 样 就 会 显得 比较 乱 ， 不 
按 常 理 出 牌 ， 代 码 风格 鲁莽 ， 优 雅 的 方式 是 发 现 需 
要 切换 ， 则 先 设置 need_resched 位 ， 然 后 再 检测 need_ 
resched 位 ， 如 果 为 1， 则 再 决定 调用 schedule0 。 


10.4.2 ”用 户 态 和 内 核 态 抢占 
针对 众多 的 用 户 态 任务 ， 内 核 可 以 采取 两 种 大 


itrace sched wakeup 


2 ‹ preempt сшт 
|Wq worker waking up 


方向 来 决定 如 何在 这 些 任 务 之 间 切 换 。 一 种 是 不 可 抢 
: (None Preemptable) 模式 ， 也 就 是 说 ， 只 要 用 户 
任务 不 主动 调用 诸如 sleep 或 者 pause 类 的 函数 通知 内 
核 将 自己 休眠 的 话 ， 即 便 是 外 部 时 钟 到 来 中 断 了 用 户 
任务 的 运行 ， 中 断 返回 之 后 内 核 仍然 返回 到 中 断 之 前 
的 那个 用 户 任务 继续 运行 ， 而 不 能 强行 切换 到 其 他 任 
务 。 这 种 模式 目前 已 经 几乎 淘汰 ， 因 为 这 样 做 太 不 安 
全 ， 会 导致 用 单个 户 任务 长 期 霸占 CPU。 当 然 ， 在 一 
些 定制 化 的 专用 封闭 系统 里 ， 这 样 做 反倒 是 有 更 多 的 
可 控 性 。 

目前 开放 式 系统 中 普遍 采用 抢占 式 (Preemptable) 
模式 ， 内 核 会 记录 每 个 用 户 任务 运行 的 时 间 ， 每 次 时 
钟 中 断 时 检查 如 果 超 时 则 下 次 不 再 运行 该 任务 ， 切 换 
到 另外 的 任务 运行 ， 当 然 如 果 没 有 其 他 任务 了 则 还 会 
调度 该 任务 继续 执行 ， 除 非 该 任务 主动 休眠 ， 则 调度 
idle 任 务 运行 。 即 便 内 核发 现 某 个 用 户 任 务 并 没有 用 
完 时 间 片 ， 也 可 以 选择 在 中 断 返 回 后 不 再 运行 该 任务 
而 切 到 其 他 任务 ， 这 就 是 强行 抢占 了 。 

具体 场景 比如 当 某 个 任务 决定 唤醒 某 个 等 待 队 
列 上 的 其 他 任务 ， 结 果 发 现 被 唤醒 的 任务 的 优先 级 
比 当前 任务 更 高 ， 那 么 就 可 以 设置 当前 任务 的 need_ 
resched 标 记 ， 让 当前 任务 返回 用 户 态 前 夕 被 切 出 去 ， 
从 而 让 高 优先 级 的 任务 有 机 会 得 到 运行 。 如 图 10-128 
所 示 为 唤醒 过 程 中 必 经 之 路 try_to_wake_up() 函 数 下 
游 情况 ， 可 以 看 到 最 右边 的 set_tsk_need_resched() 被 
调用 。 

抢占 模式 又 细 分 为 两 种 子 模式 。 假 设 任务 A 正 运 
行 在 用 户 态 ， 突 然 发 生 了 外 部 中 断 或 者 A 执行 了 系统 
调用 ， 进 入 中 断 服务 程序 或 者 系统 调用 程序 执行 ， 中 
断 或 者 系统 调用 返回 时 ， 如 果 必 须 返 回 到 A 而 不 能 切 
换 到 其 他 任务 执行 ， 此 时 就 是 上 文中 提 到 过 几乎 没有 
开放 式 OS 使 用 的 不 可 抢占 模式 ， 或 者 说 用 户 态 和 内 核 
态 都 不 可 抢占 模式 ， 如 果 人 允许 不 必须 返回 A 运 行 而 且 
可 以 切换 到 B 运 行 ， 就 是 可 抢占 模式 (但 是 内 核 态 不 
一 定 可 抢占 ， 见 下 文 ) 。 

假设 任务 A 正 在 内 核 态 执行 ， 突 然 来 了 外 部 中 
断 ， 进 入 中 断 服务 程序 执行 ， 中 断 执 行 完毕 之 后 ， 


10-128 ”唤醒 新 任务 后 检查 是 否 要 抢占 当前 任务 
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如 果 必 须 返 回 到 任务 A 的 内 核 态 继续 执行 ， 则 被 称 为 
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醒 了 某 个 队列 中 的 任务 ， 结 果 try_to_wake_up0 〇 函数 ЕЖ | { z iid = 
发 现 目标 任务 优先 级 比 当前 任务 高 ， 则 把 自己 设置 为 “= f i b < 
need_resched， 再 者 ， 可 能 并 不 是 当前 任务 自己 把 自 ub С E D ЕКШЕ 
己 设 置 成 need_resched 的 ， 而 是 比如 在 中 断 服务 程序 H I ШЕ š 
执行 期 间 ， 发 现 符合 了 某 个 条 件 ， 比 如 当前 任务 到 达 4ш---- ы UM) ш 
了 运行 时 间 片 ， 则 设置 为 need_resched。 8 gt--. E 

那么 ， 是 哪 段 代 码 负责 检查 need_resched 然 后 决 x: “Sa $25 
定 是 否 调用 schedule() 切 出 当前 任务 的 呢 ? 当 系统 调 2 ER к 
用 、 外 部 中 断 、 异 常 等 过 程 执行 完 之 后 ， 分 别 会 执 5 н | ЈЕ 
行 一 段 收尾 的 汇编 代码 ， 分 别 为 : syscall_exit、ret_ [3 Қ ~ Ht 
人 fom_intr 和 ret_from_exception， 就 是 在 这 些 代码 中 Ë 2 Hi А 
决定 是 走 到 schedule0 还 是 走 到 restore_all 宏 的 。 下 文 B 5 % ul 
详 述 。 EE g | 

如 图 10-129 所 示 为 三 种 抢占 模式 示意 图 。 这 里 要 | 3 5; pn 
深刻 理解 一 点 ， 抢 占 都 发 生 在 内 核 态 运行 的 时 候 ， EE б Е i 
不 可 能 发 生 在 用 户 态 代码 运行 时 ， 因 为 只 有 轮 到 内 V -| s 
核 运行 时 才 会 发 生 抢占 ， 此 时 一 定 要 么 用 户 态 主动 HE P ug 


系统 调用 进入 了 内 核 ， 要 么 外 部 中 断 导 致 内 核 代码 
的 运行 。schedule() 尾 部 会 调用 到 — switch 10, Ж 
任务 总 是 从 新 任务 的 ”switch_to 下 游 的 switch_to() 
函数 开始 返回 ， 然 后 返回 到 schedule() 外 面 ， 当 初 谁 


re 
系统 再 用 /中 上 断 
内 核 态 函数 1 
内 核 态 函数 2 
内 核 态 函数 n 


用 户 态 函数 1 
用 户 态 函数 2 
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调用 的 schedule()， 就 返回 到 谁 。 如 果 是 由 于 外 部 中 
断 导致 调用 了 schedule()， 那 一 定 是 在 ret_from intr 
宏 过 程 中 调用 的 ， 那 就 返回 ret_from_intr 宏 里 调用 
schedule0 返 回 之 后 的 下 一 旬 代 码 ( 如 图 左 数 第 2/4 个 
场景 所 示 ) ; 如 果 是 在 旧 任 务 内 核 态 执行 时 主动 调 
用 了 schedule()， 则 依然 返回 到 旧 任 务 的 内 核 态 断 点 
继续 执行 (如 图 中 左 数 第 3 个 场景 所 示 ) 。 关 于 ret_ 
from _intr 的 详细 代码 流程 会 在 下 文中 介绍 。 


Linux 内 核 提 供 了 下 面 的 宏 来 供 代码 查询 当前 
状态 是 从 用 户 态 系统 调用 或 者 中 断 之 后 的 状态 ， 
还 是 从 某 个 任务 的 内 核 态 再 次 中 断 之 后 的 状态 。 
其 原理 就 是 判断 当前 的 pr_regs 指 针 指 向 的 栈 帧 底部 
保存 的 寄存 器 中 的 CS 字段 的 RPL 是 否 为 3 从 而 得 出 
结论 。 


static inline int user mode(struct pt гер *regs) ( #ifdef 
CONFIG X86 32 return (regs-»cs & SEGMENT. ЕРІ MASK) == USER . 
RPL; #else return !l(regs-»cs & 3); #endif } 

Linux 内 核 从 诞生 起 就 是 抢占 式 内 核 ， 然 而 从 
2.5.4 版 本 才 开 始 支持 内 核 抢占 模式 。 需 要 注意 的 是 ， 
禁止 抢占 并 不 是 禁止 响应 外 部 中 断 ， 虽 然后 者 会 实现 
更 彻底 的 无 打 断 效果 ， 但 是 会 降低 对 外 部 设备 的 响应 
能 力 。 禁 止 抢占 后 ， 即 使 有 外 部 中 断 到 来 ， 中 断 完 成 
后 依然 会 返回 之 前 的 任务 ， 就 像 没 被 打 断 一 样 继续 
执行 。 

need_resched 位 被 设置 仅仅 是 导致 当前 任务 可 以 
被 抢占 的 必要 条 件 之 一 。 上 文中 提 到 过 ， 在 内 核 态 
抢占 当前 任务 还 需要 一 些 特殊 条 件 ， 只 有 同时 符合 
need_resched==1 以 及 这 些 特殊 条 件 ， 任 务 才能 被 抢 


占 在 内 核 态 。 那 就 势必 要 有 一 个 用 来 记录 这 些 条 件 是 
否 满足 的 地 方 ， 这 就 是 与 need_resched 标 记 作 伴 的 同 
样 位 于 任务 thread_info 结 构 体 中 的 preempt_count 字 段 
(长 度 32 位 ) ， 如 图 10-130 所 示 。 只 要 preempt_count 
这 32 位 的 值 总 体 上 不 为 0， 就 不 能 抢占 ， 为 0 则 可 以 抢 
Ш; ВИЖ, preempt count 内 部 任何 一 个 子 字 段 不 为 
0， 就 不 能 抢占 。 f£ret from intr/ret from exception 
宏 中 会 判断 当前 正在 返回 到 用 户 态 还 是 内 核 态 ， 如 果 
是 返回 到 内 核 态 ， 会 先 判断 preempt count， 如 果 不 为 
0， 则 直接 走 到 restore_all 返 回 当前 任务 继续 执行 ， 不 
进行 调度 ; 如果 preempt_count 为 0， 则 再 去 判断 need_ 
resched 是 否 为 1， 为 1 则 调度 ， 不 为 1 则 走 到 restore_all 
返回 当前 任务 。 

先 不 必 纠 结 于 图 10-130 中 每 个 字段 的 含义 ， 下 
面 先 来 看 看 一 个 任务 在 内 核 态 运行 期 间 可 被 抢占 的 
条 件 。 

COD 不 持 有 任何 自 旋 锁 / 自 旋 锁 都 被 释放 了 。 如 
果 被 中 断 的 任务 尚 持 有 任何 自 旋 锁 ， 则 不 可 抢占 ， 
为 前 文中 也 说 过 ， 自 旋 锁 是 多 个 任务 处 于 不 停 的 哄抢 
中 ， 如 果 其 中 一 个 任务 抢 到 了 锁 ， 其 他 任务 依然 在 哄 
抢 中 ， 唯 有 该 任务 很 快 释放 自 旋 锁 ， 其 他 任务 才能 抢 
到 。 如 果 该 持 有 自 旋 锁 的 任务 被 抢占 ， 此 时 即便 是 其 
他 任务 运行 了 起 来 ， 也 是 原 地 空转 ， 浪 费 CPU 性 能 。 
所 以 此 时 不 可 抢占 ， 中 断 返 回 后 需要 继续 运行 中 断 之 
前 的 任务 ， 合 情 合 理 。 另 外 ， 如 果 是 某 个 高 优先 级 的 
任务 拿 不 到 Spinlock， 那 么 如 果 内 核 的 任务 调度 模块 
的 策略 是 总 是 运行 高 优先 级 任务 ， 则 会 形成 死 锁 。 那 
么 ， 如 何 判断 当前 任务 是 否 持 有 自 旋 锁 ? 实际 上 ， 每 
当 内 核 代 码 调用 spin_lock 类 函数 时 ， 该 函数 内 部 都 会 
先 调用 preempt_disable0 然 后 再 去 尝试 变更 锁 变量 ， 如 
下 面 的 代码 所 示 。 


static inline void __raw_spin_lock(raw_spinlock_t *lock) { preempt disable(); spin_acquire(&lock->dep_map, 0,0, КЕТ. 
IP_); ОСК CONTENDED/lock, do_raw_spin_trylock, do raw spin lock); } 
*tdefine preempt disable() \ до { inc preempt count(); \ barrier(); \ } while (0) 


#дећпе inc preempt count() add preempt count(1) 


# define add preempt . count(val) do ( preempt count() += (val); ) while (0) 
#define preempt count() (current thread іпіо()->ргеетрі count) 


static inline struct thread. info *current thread info(void) ( return (struct thread info *) (current stack pointer & 


(THREAD SIZE - 1)); } 


该 函数 其 实 会 将 当前 任务 的 thread_info 中 的 
preempt_count 中 的 PREEMPT_MASK 字 段 的 值 +1， 
让 其 不 为 0， 这 样 就 禁止 了 抢占 ， 此 时 即便 发 生 外 部 
中 断 ， 在 ret_from_intr 时 会 判断 preempt_count 是 否 为 
0 来 决定 是 否 调度 。 当 调用 了 spin_unlock 类 函数 解锁 
时 ， 函 数 下 游 会 调用 preempt_enable()， 该 函数 会 将 


PREEMPT_MASK 字 段 的 值 -1， 但 是 减 1 之 后 不 一 定 
为 0， 因 为 任务 可 能 同时 拿 到 了 多 个 自 旋 锁 ， 直 到 所 
有 自 旋 锁 都 解锁 后 ，PREEMPT_MASK 字 段 才 为 0， 
但 是 此 时 也 并 不 意味 着 可 以 抢占 ， 因 为 preempt_count 
中 的 其 他 字段 可 能 不 为 0。 


өн PREEMPT АСТМЕ || NMI MASK || 


HARDIRQ_MASK 


SOFTIRQ MASK 


PREEMPT MASK 


31 22 21 20 19 16 15 


8 7 0 


图 10-130 thread info 中 的 preempt_ count 字段 


preempt_count 的 初始 值 为 全 0。preempt disable 
和 preempt_enable 必 须 配 套 使 用 ， 先 disable， 后 
enable。 这 样 preempt_ count 的 值 永远 不 会 小 于 0， 和 否 
则 就 是 bug。 


(2) 没有 处 于 抢 锁 过 程 中 。 比 如 某 任务 尝试 调 
用 mutex_lockO 函 数 准备 加 锁 ， 在 没有 拿 到 锁 之 前 被 
抢占 了 ， 这 个 抢占 点 其 实 是 不 合 时 宜 的 ， 因 为 任务 
要 拿 到 锁 进 临界 区 ， 是 否 拿 得 到 再 说 ， 但 是 如 果 还 
没 等 尝试 去 拿 锁 就 发 生 了 抢占 ， 会 影响 任务 执行 的 
效率 。 所 以 至 少 要 让 任务 去 尝试 拿 锁 ， 如 果 拿 不 到 
再 被 抢占 也 不 晚 。 所 以 ， 拿 锁 之 前 先 禁止 抢占 ， 然 
后 再 使 能 ， 是 合理 的 做 法 。mnutex_lockO 函 数 的 实现 
如 图 10-131 所 示 ， 它 首先 尝试 快速 路 径 ， 也 就 是 采 
用 Spinlock 底 层 所 使 用 的 原子 操作 尝试 加 锁 ， 但 与 
Spinlock 自 旋 不 同 的 是 ， 一 旦 加 锁 失 败 ， 则 转 到 慢 速 
路 径 ， 也 就 是 拿 不 到 锁 就 休眠 。 在 慢 速 路 径 中 可 以 看 
到 先 调用 了 preempt_disable0 函 数 ， 导 致 preempt_count 
被 +1， 禁 止 了 抢占 ， 然 后 尝试 再 次 拿 锁 ， 拿 不 到 则 调 
用 preempt_enable_no_resched() 函 数 使 能 抢占 ， 然 后 
schedule0 将 自己 切 出 去 ;如果 拿 到 了 锁 ， 则 从 等 待 队 
列 中 删 掉 自 己 ， 然 后 使 能 抢占 。 

与 Spinlock 不 同 ， 持 有 Mutex 的 任务 只 是 在 尝试 拿 
Mutex 锁 过 程 中 禁止 抢占 ， 而 拿 到 或 者 拿 不 到 锁 后 ， 
都 使 能 抢占 。 由 于 抢 不 到 Mutex 的 任务 会 休眠 ， 所 以 
即便 是 Mutex 持 有 者 未 释放 锁 之 前 被 抢占 了 ， 其 他 任 
务 运行 尝试 拿 锁 拿 不 到 就 会 休眠 ， 持 有 锁 的 任务 就 会 
有 更 高 概率 被 调度 重新 运行 ， 释 放 锁 时 会 唤醒 对 应 
Mnutex 锁 等 待 队列 中 的 任务 起 来 执行 。 这 个 过 程 并 不 
会 影响 性 能 。 
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(3) 所 有 中 断 处 理 已 经 执行 完毕 。 如 果 当 前 正 
处 于 中 断 上 下 文 ， 正 在 处 理 中 断 ， 则 不 能 被 抢占 ， 
为 中 断 处 理 要 求 迅速 响应 完毕 ， 如 果 这 期 间 被 打 断 ， 
对 外 部 IO 的 响应 将 会 极 大 降 速 ， 有 时 甚至 会 导致 外 部 
硬件 缓冲 区 溢出 。 外 部 中 断 到 来 时 ，CPU 会 自动 先 关 
闭 自己 对 中 断 的 响应 ， 然 后 调用 irq_entries start > do_ 
IRQ 0 > irq_enter()， 其 会 执行 add_preempt_count() 将 
preempt_count 字 段 中 的 HRADIRQ_MASK 字 段 加 1， 也 
就 是 把 preempt_count 的 第 16 位 +1， 不 管 preempt_count 
其 他 字段 是 否 为 0， 反 正 preempt_count 整 体 不 为 0， 此 
时 就 禁止 了 抢占 。irq_enter0 返 回 do_IRQ 0， 后 者 接 
着 调用 对 应 的 中 断 服务 程序 把 那些 能 够 快速 解决 的 事 
情 先 干 了 ， 执 行 完毕 后 ， 调 用 irq_exit0， 后 者 会 调用 
sub preempt countO 函 数 再 将 HRADIRQ_MASK 字 段 
减 1。 上 述 这 个 过 程 被 称 为 硬 中 断 处 理 过 程 ， 或 者 说 
中 断 的 上 半 部 。 

由 于 中 断 处理 过 程 可 能 比较 长 ， 有 一 些 事情 处 理 
起 来 耗费 很 长 时 间 ， 而 长 时 间 禁 止 中 断 会 导致 问题 ， 
所 以 irq_exit() 中 会 接着 调用 invoke_softirq() 来 处 理 后 
续 的 长 尾 事务 。softirq 俗 称 软 中 断 ， 或 者 说 中 断 的 下 
半 部 ， 其 并 非 指 “ 用 软件 来 中 断 ” (比如 int/sysenter 
指令 ) ， 它 只 表示 硬 中 断 处 理 的 后 半 部 分 。invoke_ 
softirq() > _do_softirq0 先 把 SOFTIRQ_MASK 字 段 
+1， 禁 止 抢 占 〈 此 时 尚未 打开 外 部 中 断 响应 ) ， 然 后 
调用 local_irq_enable0 打 开外 部 硬 中 断 响 应 ， 此 时 可 
以 继续 响应 其 他 中 断 。 如 果 一 些 老 的 硬 中 断 服 务 程序 
擅自 打开 了 中 断 响 应 ， 则 可 能 会 形成 中 断 嵌 套 ， 由 于 
上 一 个 硬 中 断 还 没 结束 ，HARDIRQ_MASK 字 段 还 没 
有 清 零 ， 本 次 的 新 中 断 会 再 次 向 其 中 +1， 这 就 是 为 何 
HARDIRQ_MASK 字 段 有 多 位 的 原因 。 至 于 softirq 的 
详细 过 程 以 及 其 与 preempt_count 的 关系 ， 详 见 本 章 后 
面 的 中 断 处 理 一 节 。 


void sched mutex lock(struct mutex *lock) 


might sleep(); 
. mutex fastpath lock(&lock-»count, 
mutex set owner(lock); 


) 


"define mutex fastpath lock(v, fail fn) 
do( 
unsigned long dummy; 
typecheck(atomic t *, v); 
typecheck fn(void atomic t*), fail fn); 
asm volatile( 
LOCK PREFIX " 
"jns1f An" 
" call " #fail fn "n" 


decl (%%га мл“ 


Б 
тар” (dummy) 
о" 


: "rax", "rsi", "гах", "rcx", 
ЫСЫҒАН ТУЫНДАҒЫ 
} while (0) 


memory"); 
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. mutex lock slowpath); 


_ mutex lock slowpath(atomic t *lock count) 


struct mutex *lock = container of(lock count, struct mutex, count); 


. mutex lock common(lock, TASK UNINTERRUPTIBLE, 0, RET IP ); 


static inline int sched _mutex lock common(struct mutex "lock, long state, 


unsigned int subclass, unsigned long ip) 


struct task struct *task = current; 
struct mutex waiter waiter; 
unsigned long flags; 

preempt disable(; 


mutex acquire(&lock-»dep, map, subclass, 0, ip); 


入 队 等 待 队列 |; 

如 果 再 次 没 拿 到 铬 : 
preempt enable no reschedi 
schedule(; 

如 果 成 功 拿 到 锁 : ”出 队 等 待 队列 |; 


preempt enable(); 
| нама 
mutex lock 内 核 函 数 内 部 实现 逻辑 概览 


将 自己 设置 为 TASK | UNITERRUPTIBLE/TASK INTERRUPTIBLE; 
0: 
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综 上 所 述 ，preempt_ count 中 的 HARDIRQ_MASK 
和 SOFTIRQ_MASK 两 个 字段 分 别 记录 了 当前 的 任务 
是 否 正 处 于 硬 中 断 、 软 中 断 上 下 文 ， 同 时 也 用 于 判断 
是 否 可 对 当前 任务 抢占 。 还 有 一 个 NMI_MASK 位 ， 
当 发 生 不 可 屏蔽 中 断 (None Maskable Interrupt) ІМ, 
NMI 中 断 服务 程序 会 对 该 位 加 1 从 而 禁止 抢占 。 


Linux 内 核 提供 了 下 面 的 宏 可 用 于 判断 当前 是 
和 否 正 处 于 外 部 中 断 上 下 文中 ， 底 层 原理 其 实 就 是 检 
查 preempt_count 中 所 有 与 中 断 相 关 的 字段 是 不 是 有 
不 是 0 的 部 分 ， 有 则 处 于 中 断 上 下 文中 。 
#define in interrupt() (irq_count()) 
#define irq_count() (preempt_count() & (HARDIRQ_MASK 
| SOFTIRQ_MASK | NML МА5К)) 


(4) 没有 正在 执行 sshedule0。scheduleO 函 数 的 
作用 就 是 切换 到 目标 任务 ， 如 果 在 它 运行 期 间 又 被 抢 
占 ， 再 次 执行 sshedule0， 这 就 没有 意义 了 ， 所 以 “ 切 
换 到 另 一 个 任务 ”应 该 一 整套 被 无 打 断 地 执行 下 来 ， 
所 以 schedule() 函 数 内 部 会 禁止 抢占 ， 一 直到 switch_ 
to() 到 目标 任务 ， 目 标 任务 开始 运行 ， 从 目标 任务 
的 switeh_to() 返 回 出 来 之 后 ， 会 有 一 处 调用 preemt_ 
enable_no_resched() 函 数 ， 使 能 抢占 。 而 旧 任务 的 状 
态 被 冻结 在 了 禁止 抢占 状态 ， 封 存在 它 的 task_struct 
中 ， 当 旧 任务 再 次 被 调度 时 ， 也 会 从 旧 任务 的 switch_ 
to0 返 回 ， 出 来 之 后 使 能 抢占 。 所 以 ， 整 个 schedule() 
的 过 程 就 像 一 个 永远 处 于 同一 种 状态 循环 的 小 窗口 一 
样 。 具 体 切 换 过 程 可 以 回顾 图 10-63。 

(5) preempt_count 字 段 中 的 PREEMPT_ACTIVE 
位 为 0。 设 想 这 样 一 个 场景 : 某 任务 先 将 自己 的 状态 
改 为 TASK_UNINTERRUPTIBLE， 然 后 设置 了 一 个 定 
时 器 ， 并 将 自己 加 入 与 该 定时 器 配套 的 等 待 队列 〈 比 
如 调用 list_add tail0 函 数 ) 中 ， 然 后 调用 schedule0， 
这 个 过 程 看 上 去 没什么 问题 。 但 是 ， 假 设 在 任务 还 没 
来 得 及 将 自己 放 入 等 待 队列 之 前 ， 发 生 了 一 次 外 部 中 
断 ， 而 这 次 中 断 期 间 ， 内 核 决定 抢占 当前 任务 ， 切 到 
另 一 个 任务 运行 ， 所 以 调用 了 schedule(0)，scheduleO 
只 要 看 到 当前 任务 不 是 RUNNING 态 ， 就 会 将 其 从 运 
行 队列 中 删 掉 。 这 下 问题 来 了 ， 当 前 任务 尚未 处 于 
任何 一 个 等 待 任何 条 件 的 队列 ， 又 被 从 运行 队列 中 
剔除 ， 而 且 还 是 UNINTERRUPTIBLE 状 态 (内核 的 
send_signal() 函 数 一 看 到 这 个 状态 ， 即 便 收 到 信号 也 
不 会 唤醒 它 ) ， 它 将 永远 无 法 醒 来 。 实 际 上 导致 任务 
无 法 再 次 唤醒 的 组 合 有 很 多 ， 如 图 10-132 所 示 。 

仔细 体会 图 中 的 每 一 种 场景 ， 其 中 ，B、C 场 景 
导致 任务 永久 睡眠 的 原因 并 不 是 因为 任务 根本 没有 被 
唤醒 的 机 会 ， 而 是 任务 明知 道 定 时 器 已 经 到 时 了 ， 仍 
然 执 意 要 调用 schedule0， 这 似乎 就 是 代码 本 身 写 得 有 
问题 了 ， 如 果 能 够 在 调用 schedule0 之 前 再 次 检测 一 下 


定时 器 是 否 已 经 到 时 ， 就 可 以 不 去 调用 schedule0) 来 休 
眠 自己 。 为 此 ， 定 时 器 到 时 触发 的 下 游 中 断 处 理 过 程 
中 可 以 将 定时 器 到 时 这 个 事件 记录 在 一 个 变量 中 ， 比 
如 int timeout， 到 时 则 改 为 1， 不 到 时 则 保持 为 0， 然 
后 任务 在 调用 schedule(0) 之 前 执行 一 名 itimeoutb)， 为 
假 则 不 调用 schedule0， 直 接 走 到 “ 醒 了 王 活 ”这 一 步 
即 可 。 图 10-132 最 右 侧 的 ”wait_event 宏 中 用 的 就 是 这 
种 手段 。 


实际 上 ， 即 便 调 用 schedule() 之 前 通过 
if(timeout) 判 断 为 假 ， 也 不 能 保证 在 刚刚 进入 
schedule() 时 timeout 恰 好 被 定时 器 中 断 下 游 设置 
为 1， 此 时 如 果 继 续 schedule()， 当 前 任务 照样 永 
远 醒 不 来 。 这 种 情况 就 属于 一 种 条 件 竞争 Васе 
Condition ) 。 实 际 上 ， 在 定时 器 中 断 下 游 调用 的 
try_to_wake_up(O) 函 数 中 ， 会 尝试 将 被 唤醒 任务 状 
态 改 为 RUNNING，schedule() 并 不 会 将 RUNNING 
态 的 任务 别 除 运行 队列 。 图 10-132 最 右 侧 的 那 句 
代码 if(prev->state && …) 就 是 schedule() 用 于 判断 
当前 任务 是 否 为 RUNNING ( 二 进 制 码 为 全 0 ) 
的 。try_to_wake_up() 对 state 的 修改 和 schedule() 对 
state 的 检查 形成 了 竞争 ， 如 果 使 用 锁 来 对 state 互 
斥 访问 ， 那 么 一 旦 try_to_wake_up() 先 拿 到 了 锁 并 
设置 了 RUNNING， 那 么 schedule() 就 拿 不 到 锁 ， 
它 会 一 直 尝 试 拿 锁 ， 当 拿 到 锁 时 ， 此 时 state 已 经 
为 RUNNING ， 则 不 会 把 当前 任务 出 队 ; 而 一 旦 
schedule() 先 拿 到 了 锁 并 检查 了 state， 就 会 将 任务 出 
队 ， 同 时 try_to_wake_up() 拿 不 到 锁 ， 当 schedule() 
返回 时 释放 锁 ， 前 者 才能 拿 到 ， 然 后 将 其 state 重 
新 改 为 RUNNING， 并 加 入 运行 队列 ， 成 功 实现 唤 
醒 。 所 以 ， 你 可 以 在 try_to_wake_up() 和 schedule() 
里 都 看 到 它们 调用 了 Spinlock 相 关 浮 数 。 任 务 调用 
schedule() 之 后 就 可 能 不 再 运行 了 ， 再 次 运行 一 定 
是 从 switch_to() 返 回 然后 schedule() 返 回 ， 继 续 执行 
下 一 句 代 码 ， 此 时 可 以 再 次 检查 timeout 是 否 为 1， 
如 果 不 为 1 证 明 还 没 到 时 间 ， 被 误 唤醒 ， 则 继续 调 
用 schedule() 睡 眠 ， 直 到 timeout 为 1 为 止 。 这 个 循环 
检测 、 调 度 过 程 可 以 在 图 中 右 侧 的 _ wait_event() 
函数 中 体会 到 。 这 个 思路 可 以 扩充 到 其 他 类 似 函 
数 ， 是 一 种 通用 手段 ， 不 仅 适 用 于 定时 器 到 时 这 个 
条 件 ， 其 他 任何 条 件 都 使 用 ， 所 以 图 中 代码 中 用 了 

“condition” 这 个 抽象 参数 。 


再 来 看 E、D、F 场 景 ， 这 三 个 场景 纯粹 是 因为 任 
务 被 抢占 而 导致 无 法 继续 运行 。 如 果 这 样 来 设计 : 凡 
是 被 抢占 的 任务 ， 不 管 它 现 在 处 于 什么 状态 ， 不 被 剔 
除 运行 队列 ， 这 样 被 抢占 的 旧 任务 就 可 以 继续 在 后 续 
有 机 会 被 调度 运行 。 这 样 就 可 以 解决 E、D、F 场 景 下 
的 问题 了 。 那 么 ， 是 否 可 以 直接 在 scheduleO) 函 数 内 部 
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及 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


#define preempt enable0 
а 


о( 


调用 user_ mode0 以 及 in_interrupt0 来 判断 当前 是 不 是 正 
处 于 直接 从 某 个 任务 的 内 核 态 被 硬 中 断后 的 状态 ， 如 
果 是 ， 证 明 本 次 schedule0 的 确 属 于 内 核 抢 占 ， 那 么 就 
不 将 旧 任务 剔除 运行 队列 。 但 是 ， 这 样 做 属于 写 死 ， 

不 灵活 ， 有 了 时候 代码 可 能 明确 希望 schedule 将 自己 剔除 
运行 队列 ， 虽 然 自己 是 被 抢占 的 。 是 时 候 该 preempt_ 
count 中 最 高 位 那个 字段 PREEMPT ACTIVE 出 场 了 。 

如 果 任 务 想 要 让 schedule0O 不 将 自己 剔除 运行 队列 ， 就 
将 该 位 置 1，schedule() 内 部 用 一 名 代码 判断 该 位 是 否 
为 1 来 决定 是 否 剔除 队列 ， 如 图 10-132 右 侧 的 scheduleO 
函数 内 部 的 一 句 关键 的 语句 所 示 。 所 以 ，PREEMPT - 
ACTIVE 如 果 为 0， 并 不 是 说 当前 任务 不 能 被 切 出 ， 可 以 
切 出 去 ， 但 是 也 会 被 从 运行 队列 中 剔除 。 

具体 来 说 ， 在 ret_from_intr/ret_from_exception 
宏 中 ， 会 判断 当前 是 处 于 直接 在 用 户 态 被 中 断 还 是 
在 内 核 态 被 中 断后 的 状态 ， 来 决定 调用 哪个 分 支 ， 
如 果 是 后 者 ， 则 会 检查 preempt_count 是 否 为 0， 如 
果 是 ， 则 再 检查 need_resched 位 是 否 为 1， 如 果 是 ， 
则 调用 preempt_schedule_irq() 函 数 ， 该 函数 内 部 会 
调用 add_preempt_count(PREEMPT_ACTIVE) 函 数 将 
PREEMPT_ACTIVE 位 +1， 然 后 调用 schedule()。 

也 可 以 不 等 返回 到 ret_from intr/ret_from_ 

exception 时 ， 直 接 在 中 途 就 抢占 。 函 数 preempt_ 
enable() 其 实 并 非 只 将 preempt_count 减 1， 其 也 对 
PREEMPT_ACTIVE 加 1。 其 具体 实现 如 图 10-133 所 
示 。 可 以 看 到 该 函数 的 目的 是 尝试 直接 触发 抢占 ， 然 
而 它 并 不 知道 当前 的 preempt_count 是 否 已 经 为 0， 所 
以 最 后 还 需要 判断 一 下 ， 为 0 则 触发 抢占 ， 不 为 0 则 返 
回 ， 所 以 它 只 是 “尝试 ”触发 抢占 。 
至 此 ，preempt_count 字 段 里 各 个 字段 的 来 龙 去 
脉 就 介绍 完毕 。 上 文中 多 次 提 到 在 中 断 或 者 异常 返 
回 前 夕 ， 会 判断 是 否 需 要 抢占 当前 任务 。 那 么 ret_ 
from intr/ret from exception 是 怎么 判断 当前 任务 是 从 
用 户 态 还 是 内 核 态 被 中 断 的 呢 ? 两 者 行为 是 不 一 样 
的 。 因 为 如 果 是 从 内 核 态 被 中 断 的 ， 需 要 多 判断 一 个 
preempt_count。 如 图 10-134 所 示 为 相关 的 汇编 代码 ， 
对 应 的 关键 流程 已 经 注释 了 ， 留 给 大 家 自行 理解 。 

如 表 10-1 所 示 为 部 分 抢占 场景 的 一 个 总 结 。 

一 个 preempt_count 竟 然 有 这 么 多 复杂 的 逻辑 ， 错 
综 复杂 。 然 而 这 只 是 thread_info 众 多 控制 字段 中 的 一 
个 罢了 。 纵 观 task_struct 结 构 体 中 诸多 的 信息 ， 每 个 


preempt enable no resched(); barrier 
barrier; 


preempt check resched(; ) while (0) 


) while (0) 


#define dec preempt count() sub preempt count(1) 
* define sub preempt count(val) do ( ргеетрї count0 -= (val); ) while (0) 


#define preempt check resched() 
do{ if(unlikely(test thread flag(TIF NEED RESCHED)) preempt schedule03 while (O) } 


图 10-133 preempt епађје Ра #0. А90, 


*tdefine preempt enable no resched() 
do( 


dec priamok count): 


都 有 故事 和 复杂 的 剧情 ， 内 核 就 像 一 部 超级 复杂 的 机 
器 ， 每 个 零件 都 有 它 的 作用 ， 而 挖掘 内 核 底层 原理 ， 
就 相当 于 观察 机 器 中 每 个 零件 的 作用 ， 就 相当 于 在 脑 
海中 来 运行 这 些 代码 。 


10.4.3 中 期 小 结 


经 过 前 文 对 等 待 、 唤 醒 、 抢 占 方面 的 介绍 ， 现 在 你 
估计 可 以 大 致 推断 出 任务 调度 的 如 下 几 个 基本 点 。 

COD 为 每 个 CPU 核 心 准备 一 个 运行 队列 (比如 
双向 链表 ) ， 将 在 这 个 核心 上 运行 的 任务 串 起 来 。 

(2) 每 个 CPU 核心 同时 运行 内 存 中 同一 份 shedule0) 
的 代码 ， 从 各 自 的 队列 中 选 出 一 个 合适 的 任务 运行 。 

(3) 任务 在 用 户 态 运行 时 如 果 发 生 了 中 断 ， 中 
断 期 间 可 能 调用 schedule0 抢 占 〈 用 户 态 抢占 ) 当前 
任务 。 

(4) 任务 在 内 核 态 运行 时 (比如 执行 了 系统 
调用 ) 可 能 发 生 中 断 ， 中 上 断 期 间 可 以 调用 preempt_ 
schedule_irq0 进 行内 核 态 抢占 ， 根 据 具体 需要 也 可 直 
接 调用 schedule()。 

(5) 任务 (的 内 核 态 部 分 在 调用 schedule() 
之 前 ， 必 须 做 好 充分 的 准备 确保 后 续 有 机 会 被 唤 
醒 ， 比 如 将 自己 加 入 某 个 等 待 队 列 ; 确保 有 其 
他 任务 会 唤醒 等 待 队 列 中 的 任务 ; 按 需 设置 自 
己 的 state 为 RUNNING、INTERRUPTIBLE 或 者 
UNINTERRUPTIBLE. #8, 7EW Hschedule(Z Aif 
再 次 检查 唤醒 条 件 是 否 已 经 满足 ， 以 防止 某 些 一 次 性 
唤醒 的 条 件 被 错过 。 

(6) schedule0) 会 尝试 将 旧 任务 〈 当 前 任务 ) 从 
运行 队列 剔除 ， 但 是 必须 满足 两 个 条 件 ; 旧 任务 的 状 
态 不 为 RUNNING， 并 且 ， 旧 任务 的 preempt_count 字 
段 中 的 PREEMPT_ ACTIVE 位 不 为 1。 如 果 任 何 一 个 条 
件 不 满足 ， 旧 任务 依然 会 在 运行 队列 中 ， 意 味 着 后 续 
还 可 以 继续 被 调度 到 CPU 运行 。 

CD 等 待 队列 由 程序 自行 创建 、 初 始 化 、 加 
入 。scheduleO 只 是 将 不 符合 运行 条 件 〈 第 6 条 ) 的 任 
务 直 接 从 运行 队列 中 删 掉 ， 而 不 负责 将 它们 挪动 到 等 
待 队列 ，schedule0 根 本 不 知道 等 待 队 列 的 存在 ， 等 待 
队列 并 不 是 schedule0 的 一 部 分 。 

(8) 等 待 条 件 完成 的 任务 和 促使 条 件 完成 的 任 
务 属于 消费 者 和 生产 者 的 关系 ， 它 们 可 以 通过 等 待 队 
列 来 相互 沟通 ， 比 如 等 待 条 件 的 任务 将 自己 加 入 对 应 


struct thread info “ti = current thread info(; 
if (likely(ti-» preempt count || irgs disabledQ)) return; 
dot 
add preempt count notrace(PREEMPT ACTIVE); 
schedule(); 
sub preempt count notrace(PREEMPT ACTIVE); 
barrier(; 
} while (need reschedQ); 


asmlinkage void sched notrace preempt schedule(void) 


舞台 幕后 的 工作 者 [ 劝 
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的 等 待 队列 〈 比 如 timer_ queue, wait chldexit^$) , 
而 生产 者 产生 一 个 条 件 后 则 唤醒 对 应 队列 中 的 消费 
者 。 也 可 以 一 对 一 直接 沟通 ， 比 如 生产 者 产生 条 件 
后 直接 调用 int wake up process(struct task struct *p) 
{return try to wake up(p. ТАӨК ALL, 0):) 内核 函数 。 
但 是 通常 为 了 效率 和 灵活 ， 应 使 用 等 待 队 列 方式 ， 只 
有 精确 设计 的 追求 性 能 时 使 用 后 者 。 

(9) 唤醒 过 程 主要 是 将 目标 任务 的 状态 改 为 
RUNNING， 然 后 需要 将 其 加 入 运行 队列 ， 至 于 被 唤 
醒 的 任务 什么 时 候 被 真正 运行 ， 不 可 控 也 不 可 知 ， 完 
全 由 schedule() 裁 决 。 

(10) schedule() 负 责 从 运行 队列 中 按照 一 定 策 
略 选 出 目标 任务 然后 执行 context_switch() 最 终 走 到 
switch to(). 

(11) 运行 队列 中 的 任务 主要 是 被 唤醒 操作 所 加 
入 的 。 在 使 用 do_forkO 新 创建 任务 之 后 ， 有 一 步 就 是 
唤醒 这 个 新 任务 : do forkO > wake up new task() > 
activate task() > enqueue task(). 

(12) 进入 等 待 队列 等 待 ， 后 续 被 唤醒 的 任务 ， 
醒 来 之 后 需要 自行 将 自己 再 从 等 待 队列 中 移 除 。 当 
然 ， 也 可 以 由 条 件 生产 者 在 唤醒 任务 后 主动 将 其 移 
除 ， 有 具体 取决 于 场景 。 

(13) 任何 一 个 任务 被 唤醒 时 都 是 从 其 switch_ 
to() 函 数 的 断 点 返回 ， 如 图 10-135 中 的 绿色 箭头 路 径 
所 示 。 

最 后 用 一 张 图 来 表示 上 述 过 程 大 致 的 原理 和 流 
程 ， 如 图 10-136 所 示 。 其 中 ， 所 有 任务 的 task_ struct 
用 双向 链表 相互 串 接 起 来 。 


10.4.4 ”实时 与 非 实时 内 核 


纵 观 如 图 10-136 所 示 的 整个 流程 ， 看 上 去 好 像 任 
务 调 度 也 不 过 如 此 了 ? 但 是 别 忘 了 一 个 关键 点 ， 任 务 
数量 总 是 远大 于 处 理 器 核心 数量 ， 如 何平 衡 这 些 任务 
让 它们 合理 地 分 享 处 理 器 核心 ， 直 接 关 系 着 系统 整体 
的 性 能 表现 。 

按理 说 ，schedule() 只 要 完全 按照 顺序 轮流 运行 
运行 队列 中 的 每 个 任务 不 就 行 了 么 ? 这样 做 固然 可 
以 ,但 是 假设 任务 A 运行 的 时 候 总 是 运行 一 小 会 儿 
就 休眠 了 ， 而 任务 B 则 每 次 都 运行 到 直到 时 间 片 耗 尽 
为 止 。 这 样 的 话 ， 你 自然 会 想 ， 如 果 多 给 任务 B 一 些 
运行 机 会 ， 就 能 够 尽量 避免 花费 更 多 次 数 来 切换 到 A 
〈 结 果 一 小 会 儿 就 得 又 切换 到 B) ， 从 而 让 处 理 器 更 
多 时 候 是 在 运行 任务 本 体 的 运算 过 程 而 不 是 去 执行 
schedule0。 只 这 一 点 ， 就 能 够 引申 出 众多 需要 权衡 的 
点 ， 到 底 让 任务 B 比 A 享 有 多 少 增加 的 权益 比例 ? 任 
务 A 会 不 会 性 能 变 差 ? 到 底 是 谁 在 使 用 任务 A? 任务 A 
的 背后 是 不 是 某 个 人 类 在 操作 ? 这 个 人 会 不 会 感受 到 
它 与 任务 A 交互 时 性 能 变 差 而 产生 抱怨 ? 

这 似乎 已 经 不 再 是 一 个 技术 问题 ， 而 是 一 个 决策 


问题 。 到 底 是 要 吞吐 量 ， 还 是 要 实时 性 。 实 时 性 意味 
着 要 快速 响应 每 个 任务 的 要 求 ， 就 得 频繁 切换 任务 ， 
降低 吞吐 量 。 这 就 像 一 个 十 字 路 口 ， 红 绿灯 切换 太 频 
繁 会 导致 交通 堵塞 ， 但 是 向 任何 一 个 方向 行驶 的 司机 
决 不 能 容忍 另 一 个 方向 的 绿灯 持续 10 分 钟 ， 虽 然 此 时 
可 能 会 极 大 地 缓解 整个 城市 的 吞吐 量 ， 也 意味 着 这 个 
等 待 了 10 分 钟 的 司机 接 下 来 可 能 会 享受 到 20 分 钟 的 畅 
通 无 阻 ， 但 是 他 可 能 等 不 了 10 分 钟 ， 也 不 想 畅 通 20 分 
钟 ， 因 为 他 可 能 要 频繁 地 靠边 停车 办 事 〈 交 互 性 ) 。 
而 如 果 把 十 字 路 口 改 造 为 转盘 模式 ， 那 就 相当 于 用 户 
态 自主 切换 的 协 程 模 式 了 。 如 果 改 造 为 高 架 路 ， 那 就 
相当 于 给 每 个 任务 分 一 个 独立 处 理 器 核心 了 ， 各 干 各 
的 无 瓜葛 。 

如 果 一 个 操作 系统 在 任务 调度 设计 上 越 倾向 于 
满足 交互 性 任务 ， 比 如 单 击 鼠 标 /按键 /双击 app 图 标 
或 者 接收 到 外 部 IO 等 交互 性 事件 之 后 ， 在 唤醒 目标 
任务 的 同时 ， 能 够 尽快 地 让 目标 任务 得 到 运行 ， 那 
么 它 就 越 接近 于 实时 操作 系统 (Realtime Operating 
System, RTOS) 。 而 如 果 能 够 在 任何 时 刻 将 目标 
任务 无 条 件 运 行 起 来 ， 不 管 当前 位 于 什么 上 下 文 ， 
抑或 是 旧 任务 正 持 有 自 旋 锁 ， 目 标 任 务 也 可 以 抢占 
运行 ， 那 么 这 就 是 最 终 的 交互 性 最 强 的 硬 实时 操作 
系统 。 硬 实时 操作 系统 用 于 一 些 特殊 场景 中 ， 比 如 
武器 系统 控制 等 ， 按 下 发 射 按钮 必须 无 条 件 立 即 发 
射 ， 而 不 可 能 提示 你 “对 不 起 ， 有 个 任务 正 持 有 自 
旋 锁 ， 不 管 你 这 个 按钮 触发 的 流程 是 否 用 到 了 被 锁 
EWAH, WATER R~~!” НЕ 
部 已 经 被 敌 军 导弹 炸 平 了 。 

总 体 而 言 ， 实 时 操作 系统 要 求 任务 的 响应 、 执 
行 、 结 束 是 可 以 精确 预知 的 ， 按 下 按钮 必须 立刻 运 
行 ， 运 行 时 间 恒 定 ， 结 束 时 间 恒 定 ， 否 则 可 能 错过 外 
界 条 件 ， 导 致 程序 即便 执行 了 也 没有 效果 。 比 如 一 个 
用 于 处 理 网 络 数据 包 转 发 的 实时 操作 系统 ， 当 数据 包 
到 来 时 产生 中 断 ， 中 断 服 务必 须 在 规定 的 时 间 将 数据 
包 收 入 并 处 理 完毕 ， 否 则 包 缓冲 区 可 能 溢出 而 丢 包 。 
再 比如 宇宙 登陆 仓 气 训 展开 时 机 ， 必 须 是 确定 时 间 以 
确定 的 速度 在 确定 的 结束 时 间 完 成 ， 否 则 将 产生 灾难 
性 后 果 。 再 比如 宇宙 飞行 器 对 接 ， 频 繁 加速 、 减 速 ， 
对 应 的 喷气 阀门 接受 宇航 员 按 钮 的 控制 的 响应 时 间 必 
须 是 恒定 的 。 

一 些 知名 的 硬 实时 操作 系统 有 VxWorks、 
RTems, RTLinux, ThreadX, QNX, Nucleus. Hl 
图 10-137 所 示 为 Linux 4.8 版 本 内 核 编译 时 可 选择 的 实 
时 性 要 求 选项 。 

第 1 项 为 内 核 不 可 抢占 模式 ， 第 2 项 往 后 都 支持 内 
核 抢 占 ， 第 2 项 会 在 内 核 中 关键 位 置 那些 可 能 引入 较 
长 时 延 的 代码 处 ) 加 入 更 多 的 显 式 的 主动 让 出 行为 ， 
从 而 形成 抢占 点 。 怎 么 理解 ? 看 图 中 右 侧 的 代码 ， 
用 宏 的 方式 控制 ， 如 果 定义 了 CONFIG PREEMPT _ 
VOLUNTARY 参 数 ， 则 把 might_resched0 替 换 为 _cond_ 
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#endif 


# define might resched() do { } while (0) 
#endif 

static inline int should resched(void) 
return need resched0 && !(preempt_count0 & PRFEMPT_ACTIVF)) 


#ifdef CONFIG PREEMPT 


define resume kernel restore all 
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if (should resched() ( 
_ cond resched(; 
return 1; 
| return 0; 
1 


add preempt count(PREEMPT ACTIVE); 


schedule); 
sub preempt count(PREEMPT ACTIVE); 


static void. cond resched(void) 
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图 10-137 Linux 内 核对 抢占 提供 的 编译 选项 以 及 对 内 核 行为 的 影响 


resched0 〇 函数， 如 果 没 有 定义 这 个 选项 则 将 其 定义 为 
空 ， 什 么 也 不 执行 。 这 样 ， 如 果 编译 时 选择 了 这 个 参 
数 ， 则 那些 调用 了 函数 符号 might resched0 的 代码 就 会 
走 入 不 同 分 支 ， 有 更 高 概率 触发 抢占 。might resched() 
就 是 内 核 代码 在 编写 时 故意 加 入 的 抢占 点 ， 配 合 
CONFIG PREEMPT VOLUNTARY 选 项 使 用 ， 所 以 为 
“might”， 意 思 是 代码 编写 者 在 这 个 地 方 有 意 主 动 让 
出 CPU， 但 是 不 确定 用 户 编译 内 核 时 是 否 会 选择 这 个 
参数 ， 选 了 就 可 以 主动 让 出 ， 没 选 就 不 让 出 。 

第 3 个 选项 则 更 加 激进 ， 对 应 的 配置 参数 为 
CONFIG_PREEMPT， 从 图 中 右 侧 紫色 代码 可 以 看 
到 ， 如 果 没有 选择 这 个 选项 ， 则 图 10-134 中 所 示 的 
ret from intr 下 游 代码 中 的 resume_kernel 标 记 会 被 奉 
换 为 restore_all 标 记 ， 这 直接 导致 每 次 中 断 返 回 时 不 
检查 是 否 需要 抢占 ， 也 不 去 执行 抢占 ， 而 是 返回 到 中 
断 之 前 的 任务 。 这 将 大 大 降低 系统 的 交互 性 响应 速 
度 ， 只 能 指望 着 内 核 代 码 主动 触发 抢占 ， 也 就 是 选择 
第 2 个 选项 时 那样 ， 这 也 是 Voluntary 的 含义 。 所 以 第 
3 项 决定 了 是 否 内 核 在 每 次 中 断 返 回 的 时 候 都 在 need_ 
Tesched 和 preempt count 符合 条 件 时 执行 抢占 。 

如 果 选 择 第 4 项 (CONFIG PREEMPT ЕТ. 
FULL) ， 则 如 果 当 前 任务 已 经 是 任何 Spinlock 的 持 有 
者 ， 则 不 能 抢占 ;如 果 手 动 让 preempt_count 不 为 0， 
也 不 能 抢占 ， 如 果 手 动 禁止 了 中 断 响应 ， 也 不 能 抢 
占 ; 其 他 时 候 都 可 以 。 

第 5 项 是 2.6 后 面 的 内 核 版 本 才 陆续 加 入 的 。 如 果 
选择 该 项 (CONFIG_ PREEMPT RT FULL) , ， 则 内 
核 会 将 spinlock 改 为 可 被 休眠 的 Mutex， 以 及 将 中 断 服 
务 程序 封装 到 线程 中 去 处 理 中 断 〈 中 断 线程 化 ) ， 从 
而 让 进入 临界 区 的 程序 和 中 断 服 务 程序 都 可 以 被 睡 
眠 ， 从 而 就 可 以 抢占 它们 。 这 时 ， 内 核 便 成 为 真正 的 
硬 实时 内 核 。 不 过 手动 禁止 抢占 时 也 不 能 抢占 。 

第 2/3/4 个 选项 则 属于 软 实时 内 核 ， 不 够 实时 。 一 
般 来 讲 ， 软 实时 内 核 的 响应 速度 大 概 平均 在 10ms 左 
右 ， 而 硬 实时 可 以 到 lms， 这 里 所 说 的 响应 并 不 是 中 
断 响应 ， 而 是 被 中 断 所 唤醒 的 任务 隔 多 长 时 间 才 真正 
被 运行 起 来 (所 以 响应 速度 最 终 还 要 取决 于 任务 的 优 
ER) 。 

然而 ， 就 算 硬 实时 操作 系统 可 以 在 几乎 不 受 太 苛 


刻 条 件 干预 下 实现 抢占 ， 但 是 抢占 的 结果 也 只 是 调用 
了 schedule()， 至 于 schedule() 挑 选 哪 一 个 任务 执行 ， 
就 成 了 需要 考虑 的 问题 ， 必 须 让 schedule0 遵 循 某 种 策 
略 来 选择 下 一 个 要 运行 的 任务 。 还 是 刚才 那个 例子 ， 
指挥 官 按 下 反 导 系统 按钮 之 后 ， 如 果 系统 这 样 提示 : 
“恭喜 ， 虽 然 当前 任务 持 有 锁 ， 但 是 新 任务 已 经 成 功 
进入 运行 队列 ， 并 尝试 重新 进入 调度 ， 然 而 下 一 个 执 
行 的 是 否 能 轮 到 该 新 任务 ， 完 全 看 schedule0 什 么 时 候 
挑 到 这 个 线程 了 ， 请 耐 ……. 夺 一 一 一 ! ”， 你 直接 把 
这 个 系统 给 炮 决 了 。 

显然 ， 系 统 中 的 多 个 任务 一 定 要 有 个 优先 级 ， 
以 及 各 种 其 他 可 控 的 策略 。 内 核 的 实时 性 与 任务 的 
优先 级 是 两 码 事 ， 高 实时 性 只 能 保证 中 断 能 够 触发 
重新 进入 schedule()， 甚 至 突破 苛刻 的 条 件 〈 比 如 
即便 当前 任务 正 持 有 锁 ) 进入 重新 schedule()， 而 
让 其 他 任务 有 机 会 运行 而 已 。 至 于 想 强制 要 求 某 个 
任务 运行 起 来 ， 需 要 做 其 他 方面 的 设计 ， 需 要 让 
schedule() 明 确 知道 ， 下 一 个 要 运行 的 就 是 它 ， 就 是 
最 高 优先 级 的 那个 ! 但 是 高 实时 性 却 是 让 某 个 任务 
尽快 运行 或 者 精准 运行 的 前 提 ， 如 果 外 部 中 断 因 为 
各 种 原因 无 法 抢占 当前 任务 的 话 ， 让 某 个 任务 尽快 
运行 也 就 无 从 谈 起 了 。 

一 句 话 总 结 : 高 实时 性 只 是 保证 了 系统 内 所 有 
任务 可 以 更 加 频繁 地 轮 到 自己 从 而 被 执行 ， 但 是 占用 
CPU 的 时 间 也 相对 越 少 ， 实 时 性 越 高 ， 所 有 任务 轮 到 
执行 的 概率 和 频 度 也 越 高 ， 交 互 时 延 越 低 ， 同 时 吞吐 
量 也 就 相应 降低 。 高 实时 性 并 不 保证 在 某 次 中 断 中 被 
唤醒 的 任务 一 定 就 是 下 一 个 被 运行 的 任务 ， 必 须 辅 之 
以 优先 级 的 设置 和 判断 才 可 以 。 


10.4.5 任务 调度 基本 数据 结构 


本 节 介 绍 一 些 与 任务 调度 相关 的 关键 数据 结构 ， 
包括 任务 优先 级 以 及 运行 队列 。 


10.4.5.1 ”任务 优先 级 描述 


综 上 所 述 ， 将 任务 分 成 不 同 优先 级 是 必要 的 ， 
比如 在 Windows 操 作 系统 下 ， 就 可 以 通过 任务 管理 器 
界面 设置 任务 的 各 种 优先 级 〈 如 图 10-138 所 示 ) 。 在 


可 罗 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


Linux 2.6.39.4 内 核 版 本 中 共 设 置 了 0 一 139 这 
140 个 优先 级 。 其 中 ，0 一 99 这 100 级 分 配给 
实时 任务 (Real Time, RT) ， 剩 下 的 40 级 
分 配给 普通 任务 。0 一 99 这 一 段 的 优先 级 高 
于 100 一 139。 其 中 ， 在 0 一 99 这 一 段 内 部 值 
越 高 优先 级 越 高 ， 而 在 100 一 139 这 一 段 内 部 
值 越 低 优先 级 越 高 。 之 所 以 不 统一 是 因为 一 
些 历 史 原 因 ， 这 里 不 再 多 述 。 


URGES) 
实时 (R) 
жн ГАН 
к DIEA) 
= 正常 (N) UAC 庶 拟 化 (V) 
FERO) ERHO 
ж) 


打开 文件 所 在 的 位 置 (O) 


是 否 要 更 改 "QQ.exe" 的 优先 级 ? 
更改 特定 进程 的 优先 级 可 能 导致 系统 不 稳定 ， 


Dmmesm ] юж 


图 10-138 ”Windows 下 调节 任务 优先 级 


所 以 ， 实 时 任务 总 是 优先 于 普通 任务 被 
运行 ， 前 提 是 对 应 的 实时 任务 未 休眠 。 之 所 
以 设置 实时 任务 的 目的 就 是 为 了 保证 优先 运 
行 ， 所 以 一 旦 某 个 实时 任务 长 时 间 处 于 运行 
态 而 不 休眠 ， 那 么 其 他 任务 将 得 不 到 执行 ， 
所 以 设 定 某 个 任务 为 实时 任务 ， 必 须 具 有 系 
统管 理 员 权限 才 可 以 操作 。 甚 至 将 任务 优先 
级 提升 如 果 超 出 一 定 范围 (可 设 定 ) ， 也 需 
要 管理 员 权限 才 可 以 。 而 且 正 如 图 10-138 中 
的 提示 框 所 示 ， 设 置 为 实时 有 可 能 导致 系统 
不 稳定 ， 因 为 一 旦 该 任务 陷入 某 种 死 循 环 ， 
可 能 会 导致 系统 整体 死机 。 

如 图 10-139 所 示 为 Linux 内 部 对 优先 级 
方面 的 一 些 规则 ，nice 命 令 用 于 改变 普通 
任务 的 优先 级 (默认 为 20，nice 值 默认 为 
0) ， 用 chrt 命 令 可 以 改变 实时 任务 的 优先 
级 ， 然 而 chrt 命 令 视角 下 的 RT 任务 优先 级 与 
PS 命令 输出 的 优先 级 值 又 不 同 。 由 于 历史 
原因 ，RT 任 务 是 后 来 才 被 加 入 内 核 的 ， 其 
优先 级 有 独立 的 一 套 规则 ， 所 以 与 原来 的 普 
通 任务 优先 级 规则 无 法 统一 ， 所 以 内 核 内 部 
又 强制 用 normal prio0 函 数 将 它们 统一 。 

nice 命 令 底层 对 应 的 是 sys_nice0 或 者 sys_ 
setpriority0 系 统 调 用 ，chrt 命 令 底层 则 是 通过 
sys sched setparam() 系 统 调用 接口 实现 的 。 
此 外 ， 还 有 其 他 一 些 与 设置 调度 优先 级 、 策 
略 相 关 的 系统 调用 接口 ， 比 如 通过 sys_sched_ 
setscheduler() 接 口 可 实现 的 功能 更 多 ， 不 但 


COMMAND 
firefox 
compiz 
Xorg 
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SHR 
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RES 
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USER PR NI МЕТ 
4586 ipc-adm+ 20 0 
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3092 root 
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// 将 nice 值 设 为 -7，PR 值 自动 为 20-7 
// 将 nice 值 设 为 8，PR 值 自动 为 28+8 


// 将 PR 设置 为 -15，PR=-1-14 
// 将 PR 设置 为 -168 ，PR: 


nice -n -7 task1 
nice -n 8 task1 
chrt -r 14 task1 
chrt -г 99 task1 


other1 
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通 任务 。Nice 值 相当 于 告诉 内 核 将 某 个 任务 优先 级 在 基准 值 附近 


微调 多 少 ， 相 当 于 好 人 卡 。 
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prio 字 段 表示 的 实时 任务 从 低 到 高 优先 级 方向 


的 实时 任务 优先 级 方向 相反 ，normal 


prio 字 段 表 : 


由 task_struct-> 


99-prio， 实 现 了 统一 
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图 10-139 Linux 下 的 任务 优先 级 机 制 


第 10 章 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 加 天 于 本 是 


可 以 设 定 实时 任务 的 优先 级 ， 还 可 以 设 定 调度 策略 。 下 
面 是 2.6394 内 核 提供 的 相关 系统 调用 一 览 : sys nice); sys_ 
зерпошу(); sys рерпошу(); sys sched setscheduler(); sys_ 
sched setparam(); sys sched getscheduler(); sys sched | 
getparam(); sys sched yield(); sys sched get priority - 
max(); sys sched get priority шщ); sys sched rr get | 
interval0。 这 些 系统 调用 在 内 核 态 都 会 检查 当前 登录 用 
户 的 权限 是 否 足够 ， 再 去 执行 对 应 动作 ， 比 如 if (user 
&& !сараМе(САР SYS NICE)) ( } 就 是 用 于 判断 权限 
的 ，capable0 〇 函数 底层 读者 可 以 自行 了 解 。 这 些 调用 
接口 有 部 分 功能 是 重复 的 ， 这 其 实 都 是 历史 原因 导致 
的 ， 由 于 实时 任务 后 续 才 被 引入 ， 导 致 了 一 系列 的 变 
更 和 保留 ， 而 为 了 兼容 性 又 无 法 完全 舍弃 之 前 的 老 
接口 。 

Linux 对 任务 优先 级 方面 的 规则 可 谓 是 眼花 练 
乱 。 在 此 梳理 一 下 一 个 任务 所 具有 的 多 种 不 同 视角 和 
作用 的 优先 级 。 在 每 个 任务 的 struct task. struct (...int 
Prio, static_prio, normal_prio; unsigned int rt_priority; ...} 
中 可 以 看 到 多 个 优先 级 。 如 图 10-140 所 示 为 各 种 优先 
级 的 由 来 和 关系 一 览 。 需 要 注意 的 一 点 是 ， 不 要 再 把 
“normal_prio” 称 为 甚至 理解 为 “普通 优先 级 ”， 徒 
增 歧义 ， 这 里 normal 是 归 一 化 /规格 化 的 意思 。 

总 结 来 说 ，static_prio 和 rt_priority 分 别 是 普通 和 
实时 任务 的 固有 优先 级 。prio 为 调度 器 最 终 使 用 的 优 
先 级 ， 它 的 初始 值 对 于 普通 和 实时 任务 分 别 为 统一 
化 了 的 static_prio 和 rt_priority， 也 就 是 各 自 的 normal _ 
prio。 在 运行 期 间 ， 实 时 任务 的 prio 值 不 会 被 内 核 为 了 
调度 上 的 考虑 擅自 改变 ， 除 非 被 用 户 或 者 内 核 代码 故 
意 变 更 。 而 普通 任务 的 优先 级 可 能 被 调度 器 为 了 算法 
上 的 考量 而 任意 变更 ， 但 是 其 static_prio 和 normal prio 
仍 保持 不 变 。 


10.4.5.2 ”三 大 子 调度 器 


由 于 不 同 的 任务 可 能 具有 相同 的 优先 级 ， 而 实 
时 任务 与 普通 任务 在 调度 方式 何 策略 上 又 会 有 很 大 的 
不 同 ， 所 以 在 内 核 中 需要 划分 出 不 同 的 数据 结构 来 管 
理 这 些 差 异 。 如 图 10-141 所 示 ， 一 种 朴素 的 想法 是 ， 
为 实时 任务 、 普 通 任务 各 准备 不 同 的 队列 ， 分 别 存 
放 。 另 外 ， 针 对 不 同 的 调度 方式 和 策略 ， 用 独立 的 表 
(结构 体 ) 来 存放 不 同 的 调度 算法 函数 的 指针 ， 由 于 
实时 任务 总 是 高 于 普通 任务 被 运行 ， 所 以 在 这 个 函数 
指针 表 头 部 加 上 一 个 指针 ， 按 照 顺序 将 表 串 接 起 来 ， 
schedule0 先 从 实时 调度 函数 指针 表 中 进入 ， 调 用 其 中 
的 函数 (只 有 这 里 的 函数 知道 应 该 怎么 从 实时 队列 中 
寻找 合适 任务 ) 去 实时 任务 队列 中 寻找 是 否 有 可 运行 
的 实时 任务 ， 如 果 没有 ， 再 去 下 一 级 也 就 是 普通 调度 
函数 指针 表 中 调用 其 中 的 函数 去 普通 任务 队列 中 寻找 
合适 的 普通 任务 运行 。 如 果 所 有 任务 都 睡眠 了 ， 就 去 
空闲 队列 中 找 ，idle 任 务 总 是 最 后 的 那 根 稻草 ， 它 总 
不 会 休眠 ， 总 是 随时 待命 。 
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使 用 chrt 命 令 指定 ， 调 度 器 不 会 擅自 变 
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图 10-140 各 种 优先 级 的 由 来 和 关系 一 览 


normal prio(struct task struct *p) static int effective prio(struct task struct *p) 


Sdefine MAX RT PRIO 


#define MAX PRIO 


sidefine DEFAULT PRIO 


return p-»static prio; 


#define MAX USER RT. PRIO 


t 
} 


- prt priority; 


sys setscheduler( ) 等 系统 调用 设置 的 优先 级 ， 用 于 表示 普通 任务 的 、 


用 户 所 要 求 的 优先 级 
为 了 将 实时 任务 原本 反 转 方向 的 不 统一 的 优先 级 值 转换 为 与 普通 任务 一 


样 的 、 值 越 高 优先 级 越 低 的 统一 化 后 的 优先 级 值 。 该 值 跟随 static_prio 
或 者 rt_priority 而 改变 ( 通过 调用 normal_prio( ) 函 数 重新 计算 新 值 ) 

调度 器 最 终 考察 该 优先 级 作为 调度 依据 。 对 于 普通 任务 ， 内 核 根据 算法 
可 能 会 擅自 的 、 动 态 的 变更 该 值 以 实现 完全 公平 的 调度 。 甚 至 可 以 把 普 
通 任务 优先 级 临时 提升 到 实时 优先 级 一 档 中 ( 解决 优先 级 翻转 PI 问题 ) 


用 户 态 通过 chrt 等 命令 ， 通 过 底层 的 sys_sched setparam( ) / 
sys setscheduler( ) 等 系统 调用 专门 针对 实时 任务 设置 的 优先 级 


用 户 态 通过 nice 等 命令 通过 底层 的 sys_nice( ) / sys setpriority() / 


优先 级 
统一 化 
优先 级 
normal_prio(p); 


动态 /有 效 
优先 级 
int prio; 
if (task has rt policy(p)) 
prio - MAX RT PRIO-1 
prio = | 
return prio; 


rt priority 
else 


static inline int normal prio(struct task struct *p) static inline int 


normal prio 


1 
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可 四 大 话 计算 机 一 一 计 算 机 系统 底层 架构 原理 极限 剖析 
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schedule( ) 
task struct 


主 调度 器 


task struct 
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task struct 
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task struct 
普通 调度 


idle sched class 


类 不 同 的 调度 算法 


fair sched class 


图 10-141 


rt sched class 


三 类 任务 使 用 


对 : 


在 Linux 2.6.39.4 内 核 版 本 中 ， 分 别 采 用 被 记录 在 
rt sched class, fair sched class, idle sched сЈаѕѕ 
体 中 的 函数 指针 对 应 的 函数 来 分 别 调度 实时 任务 、 普 
通 任务 和 空闲 任务 。 这 三 个 结构 体 每 一 个 相当 于 一 个 
子 调度 器 ，schedule0 作 为 总 控 ， 分 别 调用 子 调度 器 的 
相应 函数 完成 诸如 “挑选 一 个 合适 的 任务 出 来 ” “将 
旧 任务 入 队 ” 等 工作 。 由 于 调度 方式 不 同 ， 从 实时 任 
务 中 挑选 一 个 合适 任务 ， 与 从 普通 任务 中 挑选 的 方式 
不 同 ， 所 以 需要 不 同 函数 各 自 处 理 。 子 调度 器 的 这 种 
模块 化 架构 是 在 2.6.23 内 核 中 引入 的 ， 其 架构 很 容易 
实现 将 其 他 调度 算法 移植 进来 ， 只 需要 注册 一 套 自己 
开发 的 新 算法 函数 指针 就 可 以 了 。 

在 2.6.39.4 内 核 中 针对 普通 任务 的 调度 采用 了 名 为 
CFS (Completely Fair Scheduler) 的 子 调度 器 ， 其 功能 
函数 全 部 被 登记 在 了 fair_sched_class 结 构 体 中 。 同 理 ， 
如 果 后 续 有 人 发 明了 更 好 的 调度 器 ， 那 就 可 以 生成 一 
个 myone_sched_class 结 构 体 。 这 些 用 于 登记 子 调度 器 各 
个 功能 函数 的 结构 体 又 被 称 为 “调度 类 ”， 这 只 是 对 
其 英文 名 的 直译 ， 其 本 质 上 就 是 子 调度 器 的 功能 函数 
登记 表 。 如 图 10-142 所 示 为 三 大 子 调度 器 登记 的 函数 
一 览 。 

在 schedule() 函 数 中 ， 会 调用 pick_next_taskO 函 
数 ， 该 函数 只 是 个 壳 子 ， 其 内 部 会 判断 是 否 有 实时 任 
务 等 待 运行 ， 有 则 调用 rt_sched_class.pick_next_task 
指针 指向 的 函数 ， 从 图 10-142 中 可 以 看 到 该 函数 就 
是 pick_next_task_rt()。 如 图 10-143 所 示 为 schedule() > 
pick_next_task0 〇 函数 代码 以 及 CFS 和 RT 子 调度 器 中 对 
应 的 pick_next_task 函 数 。 


10.4.5.3 ”运行 队列 的 组 织 


再 来 看 看 运行 队列 是 怎么 组 织 的 。 如 图 10-144 右 
下 角 的 抽象 概括 图 所 示 ， 首 先 ， 为 每 个 CPU 核心 准备 
一 个 运行 队列 (Кип Queue, rq) ， 该 队列 其 实 并 非 
真正 的 队列 ， 只 是 一 张 表 而 已 ， 表 里 面 记 录 了 另外 
两 个 表 的 指针 ， 分 别 为 实时 运行 队列 记录 表 Ort rq) 
和 CFS 运 行 队列 记录 表 (сіз rq) 。 在 这 两 个 登记 表 
中 ， 设 有 队列 的 锦 点 (list_head， 前 文中 介绍 过 ) ， 
将 对 应 任务 的 task_struct 结 构 体 串 接 起 来 (每 个 task_ 
struct 结 构 体 中 都 有 相应 的 队列 锦 点 结构 ，struct list_ 
head tasks 用 于 把 所 有 任务 的 task_struct 链 接 起 来 ， 而 
struct list head children 则 把 自己 和 自己 的 子 进程 task_ 
struct 链 接 起 来 ，struct list head sibling 则 与 自己 的 兄弟 
进程 链接 ， 与 同一 级 别 其 他 RT 任务 或 者 与 其 他 CFS 任 
务 链接 的 锦 点 分 别 位 于 task_struct 中 的 次 级 表格 struct 
sched rt entity rt 以 及 struct sched entity ве) . сё rq 
队列 的 形状 比较 特殊 ， 它 是 一 个 红 黑 二 叉 树 结构 〈 篇 
幅 所 限 大 家 自行 了 解 ) ， 这 是 CFS 调 度 算法 的 特点 所 
在 。 由 于 空闲 任务 只 有 一 个 ， 那 就 是 init 进 程 (idle 进 
程 》， 所 以 不 需要 队列 。 所 有 CPU 核心 对 应 的 rq 组 成 
一 个 mmnqueues[n] 数 组 ，n 为 处 理 器 核心 的 数量 。 
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再 来 看 细节 。 系 统 会 根据 当前 的 CPU 核心 数量 
n， 设 置 一 个 runqueues[n] 数 组 ， 数 组 中 每 个 元 素 是 
一 个 指针 ， 指 向 一 个 类 型 为 rq 的 结构 体 ，rq 结 构 体 中 
再 设置 两 个 指针 分 别 指向 rt_rq 和 cfs_rq 结 构 体 。 在 rt_ 
rq 结构 体 中 ， 用 一 个 指针 指向 一 个 rt_prio_array 结 构 
体 ， 该 结构 体 中 设置 一 个 queue[100] 数 组 ， 表 示 100 
个 队列 ， 因 为 实时 任务 可 能 会 有 100 个 优先 级 ， 而 每 
个 优先 级 有 可 能 有 多 个 任务 (或 者 说 可 能 有 多 个 任务 
具有 相同 的 优先 级 ) ， 具 有 相同 优先 级 的 任务 串 接 在 
对 应 优先 级 的 队列 上 ， 队 列 头 锦 点 指针 被 保存 在 第 
queue[ 优 先 级 号 ] 个 元 素 中 。 同 时 ， 为 了 加 速 查找 ， 如 
果 某 个 优先 级 档 位 上 没有 任何 任务 挂 接 ， 那 么 就 没有 
必要 去 搜索 这 一 级 队列 ， 所 以 在 rt_prio_array 结 构 体 中 
设置 了 一 个 包含 100 位 的 位 map， 如 果 哪 个 优先 级 对 应 的 
队列 为 空 ， 对 应 位 就 为 0， 这 样 通过 查询 位 map 可 以 快速 
找到 第 一 个 不 为 空 的 队列 〈 对 应 位 =1) 。 每 个 CPU 核心 
对 应 的 runqueues[n] 都 挂 接 这 么 一 堆 数 据 结 构 。 

那么 这 一 大 堆 运 行 队列 数据 结构 ， 是 怎么 与 上 
文 介绍 的 子 调度 器 相对 接 起 来 的 呢 ? 这 两 套数 据 结 
构 看 上 去 好 像 是 各 自 独立 存在 的 。 实 际 上 ， 其 对 接 
点 就 在 schedule() > pink_next_task() 中 ， 从 图 10-143 
中 可 以 看 到 ， 该 函数 的 参数 只 有 一 个 ， 那 就 是 struct 
rq *rq， 也 就 是 对 应 的 处 理 器 核心 的 rq 结 构 体 。 该 函 
数 的 意思 就 是 : RT (CFS) 子 调度 器 (rt_sched 
class.pick_next_task() 或 cfs_sched_class.pick_next_ 
task()) ， 请 到 这 个 rq 中 对 应 地 方 挑选 出 你 认为 合 
适 的 目标 任务 。 自 然 地 ，RT 子 调度 器 就 会 去 rq->rt 
->гі ргіо апау -> 位 map 中 查找 第 一 个 是 1 的 位 ， 取 
该 位 所 在 位 map 中 的 位 置 为 索引 号 ， 然 后 到 rt_prio_ 
array->queue[ 索 引号 ] 队 列 中 拿 到 排 在 队列 中 第 一 项 
的 task_struct 就 是 下 一 个 要 运行 的 任务 。 这 个 过 程 
的 关键 步骤 被 封装 到 了 pick_next task rt() > _pick_ 
next task rt() > pick_next_rt_entity() 函 数 中 (如 
图 10-145 所 示 ) 。 如 果 是 CFS 子 调度 器 ， 则 它 会 做 
出 一 些 稍微 复杂 的 判断 ， 选 出 一 个 task_struct 来 ， 
关键 过 程 被 封装 在 了 pick_next_task_fair() > pick_ 
next_entity() 中 。 
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提示 > 

比如 一 个 100 位 的 位 map， 其 本 质 上 就 是 4 个 32 
位 的 int 整 型 变量 ，128 位 ， 但 是 只 用 前 100 位 。 至 于 
sched find first 位 0) 函数 是 如 何 搜索 到 位 map 中 第 一 
个 为 1 的 位 所 在 的 偏 移 量 的 ， 追 踪 该 函数 最 后 会 发 现 
使 用 了 BSF ( 位 Scan Forward ) 指令 实现 。 大 家 可 以 
自行 思考 该 指令 底层 是 如 何 实现 位 搜索 的 ? 用 一 个 
移 位 寄存 器 存储 待 搜索 的 字 串 ， 移 位 寄存 器 头 部 的 
一 个 位 用 一 个 与 门 与 1 相 与 。 同 时 设置 一 个 计数 器 记 
录 经 过 的 时 钟 周期 数量 。 在 时 钟 驱动 下 移 位 寄存 器 
不 断 将 字 串 中 每 个 位 前 移 ， 进 入 与 门 ， 当 与 门 结果 
为 1 时 停止 该 指令 执行 ， 并 将 计数 器 中 的 值 输出 到 通 
用 寄存 器 ， 这 个 值 就 是 该 位 所 在 字 串 的 索引 。 


如 图 10-146 所 示 为 2.6.39.4 内 核 版 本 中 rq、cfs_rq 
和 rt_rq 结 构 体 的 全 貌 ， 每 个 结构 体 中 的 每 一 项 就 是 大 
机 器 中 的 一 个 零件 ， 要 想 在 本 书 全 部 介绍 完 它们 是 不 
可 能 的 ， 就 留 给 大 家 自行 去 探索 吧 。 

图 10-146 中 这 些 数据 结构 ， 是 在 什么 时 候 被 创 
建 的 呢 ? 这 得 回溯 到 内 核 启 动 之 初 ， start_kernel() 
> sched_init() 中 会 初始 化 rq，sched_init() 中 还 相继 
调用 了 init_cfs_rq() 和 init_rt_rq() 初 始 化 cfs 和 rt 的 
rq， 这 些 代码 极为 繁 元 ， 其 中 大 量 的 rq->xxxx=xxxx 
的 赋值 语句 ， 大 家 有 个 大 致 印象 即 可 。 OS 启动 花 
费 的 时 间 里 有 相当 一 部 分 时 间 就 在 初始 化 各 种 数据 
结构 。 

那么 ， 这 些 队列 与 task_struct 结 构 体 又 是 怎么 联 
系 起 来 的 呢 ?” 如 图 10-147 所 示 ，task_struct 中 内 置 了 
多 个 表 头 锦 点 ， 包 括 将 所 有 任务 全 部 串 起 来 的 tasks 
表 头 ， 以 及 用 于 父 进程 串 接 到 其 子 进程 的 children 表 
头 ， 以 及 同 级 别 子 进程 相互 串 接 的 sibling 表 头 ， 以 
及 其 他 一 些 未 表示 出 的 表 头 。 之 所 以 要 从 不 同 角度 
形成 不 同 阵营 的 队列 ， 是 因为 在 执行 一 些 任 务 管理 
操作 时 的 方便 ， 比 如 某 个 进程 突然 被 终止 之 后 ， 需 
要 将 该 进程 的 所 有 子 进程 过 继 给 init 进 程 ， 那 么 如 何 
快速 地 找到 该 进程 所 有 的 子 进程 ? 显然 ， 从 该 进程 


static struct sched rt entity *pick next rt entity(struct rq “га, 
struct rt rq *rt rq) 


{ 


struct rt prio array *аггау = &rt rq-»active; 
struct sched rt entity *next - NULL; 


struct list head *queue; 
int idx; 


idx = sched find first bit(array-»bitmap); // 找 到 第 一 个 为 1 的 bit 索 引 


BUG ON(idx >= MAX RT. PRIO); 


// 如 果 idx 值 超出 了 100 则 就 是 出 了 bug 


queue = array->queue + idx; // 把 array- >queue 基 地 址 +idx 就 是 对 应 的 队列 号 


放 /找到 队列 中 的 第 项 
next = list_entry(queue->next, 
return next; 


struct sched rt entity, run list); 


10-145 pick next rt entity0 函 数 代码 注释 
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10.5 任务 调度 核心 方法 


上 文中 介绍 了 与 任务 调度 相关 的 部 分 关键 数据 结 
构 和 组 织 。 在 前 文中 也 多 次 提 过 ， 一 个 软件 的 整体 模 
型 无 非 就 是 两 个 东西 : 数据 结构 + 算法 。 算 法 代码 从 
数据 结构 中 提取 数据 、 判 断 并 生成 数据 再 写 回 到 数据 
结构 中 ， 周 而 复 始 ， 如 图 10-149 所 示 。 

在 了 解 了 整个 战场 的 地 形 地 貌 之 后 ， 我 们 下 一 步 
就 该 研究 兵法 了 ， 看 看 Linux 内 核 调度 器 是 怎么 调 兵 
pz ИЕ 


10.5.1 简单 粗暴 的 实时 任务 调度 


对 待 实时 任务 ， 原 则 就 一 条 : 它 永 远 相 比 普 通 任 
务 要 优先 运行 。 实 时 任务 就 像 一 个 恶霸 ， 他 来 了 就 得 
先 用 ， 仿 佛 CPU 就 是 它 自己 的 一 样 。 然 而 ， 如 果 有 多 
个 恶霸 呢 ? 简单 ， 排 优先 级 ， 超 级 恶霸 总 是 先 运 行 ， 
低级 的 等 待 ， 直 到 超级 的 主动 休眠 〈 注 意 ， 最 高 等 级 
的 实时 任务 必须 休眠 ， 而 不 是 仅 调用 scheduleO 让 出 
CPU， 和 否则 schedule0) 依 然 会 调度 该 任务 ， 因 为 它 依然 
处 于 RUNNING 态 ， 而 且 优先 级 最 高 )。 这 样 做 是 否 
会 不 公平 呢 ? 低级 恶霸 如 果 总 是 得 不 到 运行 呢 ? №, 
谁 让 你 们 是 恶霸 呢 ， 都 恶霸 了 就 谈 不 上 公平 了 。 

但 是 如 果 有 两 个 同等 级 〈 相 同 RT 优 先 级 ) 的 恶 
霸 怎 么 办 呢 ? 不 能 总 让 其 中 一 个 超级 恶霸 霸占 着 CPU 
不 放 。 于 是 ，Linux 内 核 提 供 两 种 针对 该 场景 的 调度 
策略 参数 : SCHED_FIFO 和 SCHED_RR。 图 10-148 
中 task_struct 中 的 policy 字 段 就 是 用 来 存放 调度 策略 参 
数 的 ， 改 变 policy 的 值 就 改变 了 调度 策略 。 可 以 通过 
sys_sched_setscheduler() 系 统 调用 接口 来 设置 对 应 的 策 


系统 调用 下 游 触 发 


外 部 MO 设备 中 断 下 游 触发 
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略 ， 比 如 用 户 态 的 chrt 命 令 。 

如 果 某 个 实时 任务 被 配置 为 使 用 SCHED_FIFO 策 
略 ， 那 么 一 旦 轮 到 它 运行 ， 只 要 它 不 主动 让 出 CPU， 
就 会 一 直 被 调度 运行 ， 不 管 发 生 多 少 次 中 断 ，thread_ 
info->flags 中 的 TIF NEED RESCHED 位 永远 不 被 设 
置 ， 中 断 返 回 时 依然 返回 到 该 任务 继续 执行 。 除 非 出 
现 了 比 当前 任务 优先 级 更 高 的 实时 任务 。 这 也 就 是 
First In First Out 的 含义 ， 先 到 先 得 ， 直 到 主动 退出 。 
这 个 参数 依然 放任 超级 恶霸 霸占 CPU 任意 长 的 时 间 。 

但 是 如 果 某 个 实时 任务 被 配置 为 使 用 SCHED_RR 
策略 ， 行 为 就 会 受到 限制 ， 如 图 10-150 所 示 。 每 当 
发 生 一 次 时 钟 中 断 ， 中 断 服务 程序 都 会 调用 到 timer_ 
interrupt() 下 游 的 scheduler_tick() 函 数 ， 该 函数 之 所 
以 被 插入 到 时 钟 中 断 的 下 游 ， 就 是 为 了 给 主 调度 器 
schedule() 提 供 后 台数 据 统计 作用 的 ， 其 又 被 称 为 “ 周 
期 性 调度 器 ”， 其 实 这 个 翻译 有 很 大 歧义 ， 冬 瓜 哥 对 
其 持 保 留意 见 ， 更 愿意 称 之 为 “周期 性 的 后 台 的 调度 
统计 器 ”， 简 称 “ 调 度 统计 器 ”。 调 度 统计 器 在 每 次 
时 钟 中 断后 就 会 被 运行 ， 从 而 更 新 各 种 统计 信息 ， 主 
调度 器 schedule0 及 其 子 调度 器 会 根据 这 些 更 新 之 后 的 
信息 做 出 对 应 的 调度 决策 。 所 以 调度 统计 器 其 实 是 主 
调度 器 和 子 调度 器 的 后 台 参 谋 ， 其 并 不 发 起 实际 的 调 
度 动作 。 

调度 统计 器 内 部 会 调用 当前 任务 所 属 的 子 调度 
器 类 型 〈 本 例 中 为 RT 调 度 器 ) 对 应 的 sched_class 中 
的 task_tick 指 针 所 指向 的 函数 ， 根 据 图 10-150 按 图 索 
驴 ， 其 指向 的 是 task tick_rt0 函 数 。 举 一 反 三 ， 如 果 
当前 任务 属于 受 CFS 调 度 器 调度 的 普通 任务 ， 那 么 
其 指向 的 就 会 是 task_tick_fair() 函 数 。task_tick_rt0 和 
task tick fair0 可 以 称 为 “ 子 统计 器 ”。 


图 10-149 ”模型 = 数据 结构 + 算法 
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task tick rtO 的 代码 如 图 10-150 左 下 所 示 ， 可 以 发 现 其 会 判断 当前 任务 Е 
的 调度 策略 ， 如 果 不 是 SCHED_RR， 那 么 一 定 就 是 SCHED_FIFO， 则 直接 返 e5 [РЕТ 
可 ， 意 味 着 时 钟 中 断 返 回 后 依然 会 运行 当前 任务 。 而 如 果 是 SCHED_RR， 则 Бауы 
会 把 当前 任务 task_struct->sched rt_entity 中 的 time_slice 值 减 1， 其 余 步 骤 见 555 я š 
中 注释 。 这 就 是 Round Robin (RR) 的 含义 。 БЕГЕ 
Tide RR epu “MW , ПО “m£” Etok, RAAHAA, dun ШЕН 
BABET. бокчоск ЕЕ ВЕЧЕ, Apt КЕРНЕ RE Uc 27 
哄 。 对 于 CPU 则 是 时 钟 中 断 的 发 生 间隔 〈 注 意 并 不 是 主 频 的 时 钟 频率 ， 而 是 时 间 / Be" 
Clock 的 最 小 间隔 单位 》 ，CPU 时 间 的 一 个 tck， 可 以 被 定义 为 人 类 时 间 单位 里 的 
10ms， 或 者 其 他 值 ， 这 个 是 内 核 可 以 自由 定义 的 。 内 核定 义 了 一 个 宏 HZ, 其 值 “м СЕНЕН 
为 1 吐 噶 间隔 ， 假 设 哨 噶 间隔 为 0ms， 则 HZ-100， 也 就 是 CPU 每 秒 会 被 时 钟 中 断 Eh 
100 次 。 SER 
图 10-150 中 的 宏 DEF_TIMESLICE 为 : #define DEF TIMESLICE (100 PIE : 
* HZ / 1000)。 如 果 HZ=100 则 DEF_TIMESLICE=10， 也 就 时 间 片 值 为 10 个 КИТ 
tick，100ms。 这 个 时 间 片 的 值 好 像 有 点 太 大 了 ， 一 秒 钟 最 多 切换 10 个 任务 ， СРЕ 
系统 不 会 卡 顿 么 ? 别 忘 了 ， 这 可 是 实时 任务 ， 就 算 把 时 间 片 调 低 一 些 ， 中 断 EN 
返回 依然 还 会 运行 该 任务 ， 那 不 如 所 幸 让 它 运行 长 一 些 时 间 。 如 果 是 普通 任 TE 
务 ， 绝 不 可 能 是 100ms， 否 则 系统 真 的 会 感觉 到 卡 顿 。 最 后 给 出 一 个 实时 任 сїн. 
务 调度 的 演示 实例 解说 ， 如 图 10-151 所 示 。 ШЕН 
说 完了 亚 箱 ， 我 们 再 来 看 吃 瓜 群众 E БО = 
PT ME Ж 
MHC RMR | 16 
10.5.2 左右 为 难 的 普通 任务 调度 "ы — Žž 
UH. 
除非 在 极 少数 场景 下 才 将 某 个 任务 变 为 实时 任务 ， 但 是 在 目前 的 应 用 场 По: š 
景 下 ， 数 据 中 心服 务 器 鲜 有 使 用 实时 任务 的 场景 ， 多 数 场景 下 任务 都 是 普通 ке m 
任务 。 在 一 大 堆 普 通 任务 中 突然 设 定 一 个 实时 任务 ， 确 实 是 高 危 操作 ， 可 能 EEIN EY 
会 导致 普通 任务 的 响应 速度 大 幅 降低 ， 图 10-138 中 的 提示 并 非 空穴来风 。 — = 
对 于 用 于 特殊 场景 下 的 实时 操作 系统 ， 必 须 按照 优先 级 顺序 来 执行 任 © | Ж 
务 ， 至 于 高 优先 级 总 在 运行 而 不 让 出 CPU， 这 也 是 设计 使 然 ， 这 些 封闭 系统 Bal = 
中 运行 的 程序 都 是 经 过 精心 设计 的 ， 其 并 不 是 可 以 让 任何 第 三 方程 序 安装 并 Ет 二 
运行 的 开放 式 系统 ， 比 如 之 前 的 场景 ， 按 钮 按 下 发 射 武器 一 定 是 最 高 优先 级 " IE 5 = 
的 ， 因 为 这 事 关 生死 ， 必 须 抢占 当前 任务 。 但 是 对 于 一 些 并 非 你 死 我 活 的 场 ^ Беки 


景 ， 如 此 严 苛 的 优先 级 控制 并 不 必要 ， 比 如 在 一 些 开 放 式 系统 中 ， 你 并 不 知 
道 新 运行 的 任务 是 一 个 由 谁 开发 的 、 质 量 如 何 的 、 有 没有 bug 的 、 行 为 是 否 
“高 尚 (nice) ”《〈 比 如 是 否 会 考虑 无 事 可 做 时 主动 让 出 CPU， 也 就 是 处 处 
考虑 别人 感受 ) 的 程序 ， 你 不 能 放任 让 不 省 心 的 程序 耗 尽 所 有 系统 资源 而 不 
给 其 他 任务 任何 运行 机 会 。 

如 图 10-152 所 示 为 从 两 种 不 同 角度 对 任务 进行 分 类 。 任 务 可 以 同时 具有 
这 两 种 角度 的 属性 ， 比 如 某 个 任务 既 属于 计算 密集 型 又 属于 后 台 批 处 理 型 。 
但 是 很 少 会 有 既 属 于 计算 密集 型 又 属于 交互 式 的 任务 。 

在 开放 式 系统 中 ， 可 能 同时 存在 大 量 的 具有 上 述 各 类 属性 的 任务 ， 针 对 
这 些 普通 任务 的 调度 器 必须 保证 它们 能 够 公平 地 得 到 执行 ， 还 得 兼顾 系统 的 
整体 效率 /吞吐 量 ， 又 得 保证 程序 的 响应 速度 。 调 和 这 对 矛盾 ， 会 让 普通 任务 
调度 器 左右 为 难 。 

调度 器 最 终 的 决策 有 两 个 :挑选 哪个 任务 运行 、 运 行 多 长 时 间 (多 少 
ARH) 。 上 文中 我 们 也 看 到 了 Linux 2.6.39.4 内 核 针对 实时 任务 的 子 调度 器 Ë 
中 ， 这 两 个 决策 分 别 是 : 选择 优先 级 最 高 的 ， 以 及 运行 DEF_TIMESLICE 个 
Ri (SCHED ЕЕЕ) 或 者 无 穷 大 时 间 (SCHED FIFO 策 略 ) 。 

对 于 普通 任务 ， 事 情 就 没有 这 么 简单 了 。 Ж 


T1 任 务 优先 级 最 高 而 且 是 FIFO 策 略 , 
它 让 出 CPU 后 其 他 任务 才能 执行 。 
假设 T2 正 在 休眠 ， 不 在 运行 队列 中 。 


T1 运 行 完 后 主动 释放 了 CPU 并 休眠 。 
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图 10-152 ”从 两 种 不 同 角度 对 任务 进行 分 类 


10.5.3 ”2.4 内核 中 的 O(n) 调 度 器 


在 早期 的 Linux 0.11 一 2.4 内 核 版 本 中 ， 使 用 了 一 
种 比较 简单 的 调度 器 ， 由 于 该 调度 器 每 次 调度 的 时 候 
都 要 把 运行 队列 中 所 有 项 目 查找 一 遍 来 找到 合适 的 任 
务 ， 其 算法 的 时 间 复 杂 度 为 O(n)， 该 符号 表示 算法 耗 
费 的 时 间 与 其 待 处 理 的 数据 量 n 成 正比 ， 也 就 是 队列 
中 如 果 有 更 多 的 任务 ， 每 次 调度 就 要 多 花费 正比 例 的 
时 间 来 输出 结果 。 由 于 该 调度 器 并 没有 像 现 在 这 样 都 
有 个 好 听 的 名 字 ， 所 以 人 们 现在 一 般 直 接 称 该 调度 器 
为 On) 调度 器 。 

该 调度 器 并 没有 将 实时 任务 和 普通 任务 分 开 不 
同 队 列 ， 甚 至 也 没有 为 每 个 CPU 核心 准备 一 个 单独 队 
列 ， 整 个 系统 中 只 有 一 个 单一 的 大 队列 ， 多 任务 并 发 
时 ， 必 须 采用 自 旋 锁 锁定 整个 队列 ， 效 率 很 低 。2.4 内 
核 时 代 的 数据 结构 也 与 上 文中 介绍 过 的 不 同 ， 比 如 在 
task_struct 中 包含 下 面 的 一 些 关键 的 字段 : volatile long 
need resched 〈 重 调度 位 ， 上 文中 已 经 介绍 过 ) 、long 
counter〈 可 运行 的 时 间 片 / 吐 噶 数 ) long пісе (普通 
任务 优先 级 ) 、unsigned long policy ОЯН). 
struct list head run list ОБРИ) ~ unsigned 
long rt_priority〈 实 时 任务 优先 级 ) 等 。 

其 中 ，policy 可 以 为 SCHED_RR/SCHED_FIFO/ 
SCHED_OTHERS， 前 两 个 适用 于 实时 任务 〈 方 法 与 
上 文中 介绍 过 的 相同 ) ， 后 一 个 针对 普通 任务 调度 。 
counter 字 段 记 录 的 就 是 任务 可 运行 的 吐 吐 数 。 我 们 说 
过 ， 不 能 对 普通 任务 简单 粗暴 地 处 理 ，O(n) 调 度 器 采 
用 动态 时 间 片 方式 ， 每 个 任务 可 运行 的 吐 噶 数 与 其 优 
先 级 相关 ， 具 体 关 系 使 用 prev->counter = NICE TO _ 
TICKS(prev->nice) 计 算出 来 ， 如 表 10-2 所 示 。 

每 次 吐 噶 中 断 到 来 时 ， 调 度 统计 器 会 将 当前 任务 
counter 值 减 1。 一 直到 运行 队列 中 所 有 任务 都 耗费 完 自 
己 的 时 间 片 之 后 ， 会 对 全 部 任务 (包括 不 在 运行 队列 中 
的 那些 睡眠 任务 ) 挨个 重新 充 入 时 间 值 ， 继 续 运 行 。 
关键 代码 : 1Ғ(-р->сошшег <= 0) (p-»counter = 0; р->пеей - 
resched = 1; }， 每 次 吐 噶 中 断 下 游 将 余额 减 1， 如 果 减 到 
了 0 甚至 负 值 ， 则 将 余额 置 0， 然 后 置 need_ resched 位 ， 从 


而 中 断 返 回 后 触发 调度 ， 切 到 其 他 任务 。 
充值 时 的 关键 代码 : 

for each task(p) p->counter = (p->counter >> 1) + 
NICE TO _ TICKS(p->nice) 

这 人 句 代 码 将 counter 值 重新 充 入 根据 nice 值 算出 的 咬 
噶 数 ， 如 果 之 前 counter 已 经 为 0， 则 用 >> 右 移 算 符 右 移 
1 位 〈 相 当 于 除 以 2) 后 仍 未 0， 如 果 之 前 尚 有 余额 没 用 
完 ， 则 旧 余 额 将 被 打 5 折 追 加 到 新 余额 中 作为 奖励 。 

再 来 看 看 O(n) 如 何 选 择 下 一 个 运行 的 目标 任务 。 
自然 ， 任 务 的 优先 级 仍然 是 判断 的 基本 依据 。 不 过 ， 
O(n) 使 用 动态 优先 级 (weight) 来 决策 。 动 态 优先 级 
的 基本 思路 是 ， 内 核 根据 任务 的 不 同行 为 ， 周 期 性 地 
调整 它们 的 优先 级 ， 在 较 长 的 时 间 间 隔 内 没有 运行 的 
进程 , 通过 动态 地 增加 它们 的 优先 级 来 提升 它们 的 优 
先 级 从 而 确保 一 旦 这 些 任务 被 唤醒 能 够 有 更 高 概率 被 
调度 执行 ， 相 反 ， 对 于 已 经 运行 了 较 长 时 间 的 进程 ， 
则 通过 减少 它们 的 动态 优先 级 来 压制 它们 。 

2.4 版 本 采用 数值 越 大 优先 级 越 大 的 策略 。 动 态 优 
先 级 使 用 goodness() 函 数 来 计算 。 针 对 实时 任务 ， 该 
函数 的 算法 就 是 让 weight = 1000 + p->rt_priority， 之 所 
以 +1000 是 为 了 直接 与 普通 任务 拉 开 档次 ， 使 得 实时 
任务 动态 优先 级 总 是 大 于 普通 任务 。 对 于 普通 任务 ， 
算法 为 代码 片段 weight = p->counter; if (!weight) 
goto out; weight = weight + 20 - p->nice:。 可 以 看 到 ， 
普通 任务 的 优先 级 是 与 其 时 间 片 余额 相关 的 ， 也 就 是 
余额 + 静态 优先 级 〈 这 意味 着 余额 大 的 任务 会 有 更 高 
的 动态 优先 级 ， 比 如 那些 经 常 睡 眠 的 任务 ， 余 额 就 越 
多 ， 动 态 优先 级 也 就 越 高 ， 越 能 得 到 更 多 的 运行 机 
会 ， 所 以 将 优先 级 与 余额 挂钩 也 是 为 了 奖励 这 些 平时 
睡眠 较 多 的 任务 ， 因 为 交互 式 任务 通常 频繁 睡眠 、 唤 
BE) 。 每 次 调度 都 会 按照 上 述 算 法 重新 计算 所 有 任务 
的 优先 级 并 选 出 优先 级 最 高 的 来 调度 ， 所 以 其 值 在 每 
次 调度 时 是 动态 变化 的 。 如 果 余 额 已 经 为 0， 则 会 goto 
out， 不 会 参与 本 次 调度 ， 调 度 器 略 过 对 该 任务 的 动态 
优先 级 的 计算 而 转 为 计算 队列 中 下 一 个 任务 的 动态 优 
先 级 。 

调度 过 程 的 关键 代码 如 下 : list for each(tmp, 


表 10-2 ”O(n) 调 度 器 nice 值 与 时 间 片 的 关系 表 


| 


>= 


&runqueue head) {р = list entry(tmp, struct task - 
struct, run list); int weight = goodness(p, this cpu, prev- 
»active mm); if (weight > c) c = weight, next = p;}. XX 
段 代 码 的 主要 逻辑 就 是 遍历 整个 队列 中 每 一 个 任务 ， 
用 goodness0) 函 数 按照 上 文中 方法 计算 每 个 任务 的 动 
态 优先 级 〈 将 结果 赋值 给 weight) ， 然 后 将 weight 与 c 
(之 前 已 经 算 完 的 任务 的 最 高 优先 级 ) 相 比较 ， 如 果 
本 次 算出 的 优先 级 比 上 一 次 更 高 ， 那 就 把 本 次 值 赋值 
给 c， 然 后 把 本 次 任务 的 task_struct 指 针 p 赋 值 给 next， 
一 直 循环 计算 到 队列 中 最 后 一 个 任务 ，next 的 值 就 是 
要 挑选 出 的 具有 最 高 优先 级 的 (同时 时 间 片 余额 不 为 
0 的 ) 任务 ， 其 会 被 调度 执行 。 

O(n) 调 度 器 的 代码 逻辑 非常 简单 ， 但 是 劣势 也 
很 多 。 

OD 每 次 选择 下 一 个 目标 任务 都 要 遍历 所 有 任 
务 重 算 优先 级 ， 任 务 数量 越 多 耗费 时 间 越 长 ，O@) 复 
杂 度 。 

(2) 全 局 一 个 大 运行 队列 ， 锁 粒度 太 大 ， 多 核 
心 处 理 器 系统 下 效率 太 低 。 

(3) 余额 为 0 的 任务 就 那么 在 运行 队列 中 不 被 
做 任何 处 理 ， 一 直 等 到 所 有 任务 余额 都 为 0， 统 一 充 
值 ， 充 值 时 间 将 会 很 长 ， 此 期 间 多 核心 处 理 器 会 闲置 
空转 。 

(4) 实时 任务 与 普通 任务 同 处 一 个 队列 ， 即 便 
队列 第 一 个 任务 为 一 个 实时 任务 ， 也 要 遍历 完整 个 队 
列 才能 决定 谁 优先 级 最 高 ， 导 致 实时 任务 时 延 较 大 。 
本 质 原因 是 没有 实现 原生 自 索 引 / 排 序 ， 耗 费 计算 资 源 
来 现场 排序 。 

(5) 对 睡眠 频繁 的 任务 奖励 过 于 盲目 ， 因 为 有 
些 非 交互 式 任务 也 可 能 频繁 睡眠 ， 比 如 一 些 IO 频 繁 
的 存储 系统 。 

在 2.5 内 核 版 本 中 引入 的 O(1) 调 度 器 ， 改 善 了 7 上述 
的 缺点 。 


10.5.4 ”2.5 内 核 中 的 O(1) 调 度 器 


O(1) 调 度 器 在 2.5 版 本 内 核 被 引入 。 顾 名 思 义 ， 
O(1) 调 度 器 时 间 复 杂 度 为 常量 ， 不 随 待 处 理 数据 多 少 
而 变化 。 当 然 ， 没 有 免费 的 午餐 ， 其 一 定 是 用 空间 来 
换 时 间 的 。 如 果 把 上 述 那 几 个 劣势 翻转 过 来 就 是 : 每 
次 调度 不 再 遍历 整个 队列 、 每 个 核心 具有 独立 的 队 
列 、 对 任务 的 统计 信息 计算 变 为 每 次 吐 噶 中 断 都 分 摊 
计算 一 下 等 。 在 前 文中 给 出 的 数据 结构 其 实 已 经 是 
2.6.39.4 内 核 中 的 调度 器 模型 了 ， 其 前 身 O(1) 调 度 器 的 
模型 的 样子 与 前 文中 的 也 比较 接近 。 

O(1) 调 度 器 为 每 个 处 理 器 都 设置 一 套 队 列 。 同 时 
把 所 有 任务 的 优先 级 限定 在 0 一 139， 针 对 所 有 140 个 
优先 级 ， 设 定 140 个 独立 队列 ，0 一 99 针 对 实时 任务 ， 
100 一 139 则 针对 普通 任务 。 同 样 也 有 一 个 bitmap 实 现 
快速 搜索 。 你 可 以 看 到 ， 数 据 结 构 容量 上 的 扩充 ， 实 
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现 了 原生 自 索引 ， 这 是 从 O(n) 到 O(1) 转 变 的 关键 点 ， 
空间 换 时 间 。 

O(1) 调 度 器 设置 了 两 份 prio_array{ } 结 构 体 ， 一 
份 名 为 active， 存 放 时 间 片 未 耗 尽 的 可 运行 任务 ; Я 
一 份 名 为 expired， 同 样 包含 140 级 队列 ， 用 于 存放 那 
些 耗费 完 时 间 片 的 任务 。 当 active 中 所 有 任务 的 时 间 
片 耗 尽 后 ， 将 两 个 结构 体 的 指针 互 换 。 关 键 代 码 : if 
(unlikely(!array->nr_active)) {rq->active = rq->expired; 
rq->expired = array; array = rq->active;} o 

O(1) 调 度 器 依然 会 对 每 个 任务 计算 一 个 动态 优先 
级 ， 放 置 到 task_struct.piro 字 段 。 但 是 实时 任务 的 动态 
优先 级 并 不 会 频繁 被 奖惩 ， 而 是 恒定 不 变 的 ，p->prio 
= 99 - p->rt_priority( 与 2.6.39.4 内 核 相同 算法 ) ， 并 
被 放 到 task_struct.rt_priority 字 段 。 

针对 普通 任务 的 动态 优先 级 ， 采 用 effective_prio0 
进行 计算 〈 在 每 次 咬 噶 中 断 下 游 的 调度 统计 器 中 ) ， 
该 函数 内 部 会 进行 复杂 的 判断 最 后 生成 一 个 合适 的 动 
态 优先 级 值 。 并 根据 动态 优先 级 值 将 任务 挪动 到 对 应 
的 优先 级 队列 中 。effective_prio0 函 数 内 部 采用 “ 平 
均 睡 眠 时 间 ” 算 法 ， 它 会 从 更 多 角度 去 判断 一 个 任 
务 的 交互 式 属性 ， 比 如 在 CPU 上 的 执行 时 间 、 在 运行 
队列 中 的 等 待 时 间 、 睡 眠 时 间 、 睡 眠 时 的 进程 状态 
(INTERRUPTIBLE/UNTERRUPTIBLE 等 ) 、 在 什么 
上 下 文 唤醒 (中 断 还 是 进程 上 下 文 ) 等 ， 能 够 更 精准 
地 识别 交互 式 任务 。 普 通 任 务 的 动态 优先 级 =max(100 
‚ min( 静 态 优先 级 — bonus + 5), 139), effective prio() 
最 终 会 算出 一 个 合适 的 bonus 值 来 。 最 终 ， 如 果 动 态 
优先 级 生 3* 静 态 优先 级 /4 + 28， 则 该 任务 会 被 认为 是 
交互 式 进程 。 当 然 ， 这 些 规则 都 是 一 种 经 验 规则 ， 比 
如 为 何 会 128， 完 全 是 赁 经 验 ， 这 一 点 注定 了 它 开 始 
有 点 儿 不 靠 谱 了 。2.6 内 核 版 本 中 的 effective_prio(0) 函 
数 可 以 说 是 退化 了 ， 但 是 即便 2.6 内 核 中 的 CFS 调 度 器 
并 没有 这 么 复杂 的 判断 逻辑 ， 其 效果 依然 比 0(1) 调 度 
器 更 优越 ， 下 文 详 述 。 

由 于 大 部 分 的 统计 计算 都 在 每 次 时 钟 中 断 时 被 
调度 统计 器 算 完了 ， 主 调度 器 每 次 调度 时 不 再 重 算 优 
先 级 ， 而 是 严格 按照 0 一 139 优 先 级 顺序 ， 找 到 最 高 优 
先 级 对 应 的 队列 ， 然 后 找到 队列 中 排 在 首位 的 任务 
运行 。 

再 来 看 看 时 间 片 的 分 配 。O(1) 调 度 器 不 再 使 用 
task_struct.counter 而 用 task_struct.time_slice 记 录 时 间 
片 。 如 果 静 态 优 先 级 <120， 则 基本 时 间 片 =max((140- 
静态 优先 级 )X20, MIN TIMESLICE); 如 果 静 态 优先 
级 三 120， 则 基本 时 间 片 =max((140- 静 态 优先 级 ) X 5, 
MIN_TIMESLICE)， 其 中 ，MIN_TIMESLICE 为 系统 
规定 的 最 小 时 间 片 。 可 以 看 到 O(1) 调 度 器 下 任务 的 时 
间 片 只 与 其 静态 优先 级 有 关 ， 并 不 会 随时 变化 。 

在 每 次 时 钟 中 断 下 游 ， 调 度 统计 器 scheduler tick0 会 
负责 记录 各 种 统计 信息 ， 其 中 会 对 time_slice 减 1。 对 于 
非 交互 式 任务 ， 关 键 代 码 片段 : if (!--p->time slice) 
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Í dequeue task(p, га->аснуе); set tsk need resched(p): 
p-time slice = task timeslice(p):}， 其 基本 逻辑 是 当 
时 间 片 减 为 0 时 ， 将 任务 出 队 到 expired 队 列 ， 并 且 将 
need_resched 位 置 位 ， 并 对 任务 重新 充值 。 

不 过 ，O(1) 调 度 器 对 交互 式 进程 有 特殊 处 理 。 
当 time_slice 为 0 时 ， 会 判断 当前 进程 的 类 型 ， 如 果 
是 交互 式 或 者 实时 任务 ， 则 重 置 其 时 间 片 并 重新 插 
入 active 队 列 ， 保 证 交互 式 和 实时 任务 总 能 优先 获得 
CPU。 然 而 这 些 任务 不 能 始终 留 在 active 队 列 中 ， 否 
则 进入 expired 中 的 任务 就 会 被 饿 死 。 当 任务 占用 CPU 
时 间 超过 一 个 固定 值 后 ， 即 使 它 是 实时 或 者 交互 式 任 
务 ， 也 会 被 移 到 expired 队 列 中 。 这 个 过 程 的 关键 代码 
片段 为 : 


if (ITASK INTERACTIVE(p) | | EXPIRED_STARVING(rq)) 
[enqueue task(p, rq-»expired); 


if (p-»static prio < rq-»best expired prio) rq-»best expired - 
prio = p-»static prio;) 
else enqueue task(p, rq-»active); 


O(1) 调 度 器 多 数 时 候 的 性 能 是 不 错 的 ， 至 少 比 
O(n) 要 强 多 了 ， 但 是 随 着 事务 的 不 断 发 展 ， 业 务 压 力 
逐渐 增加 ， 业 务 类 型 更 加 多 样 之 后 ，O(1) 调 度 器 逐渐 
力不从心 ， 卡 顿 也 时 常 发 生 ， 其 完全 和 任 经验 判断 的 交 
互 式 任务 判断 逻辑 ， 时 过 境 迁 之 后 ， 已 经 难以 适用 。 


10.5.5 ”未 被 接纳 的 RSDL 普 通 任务 调度 器 


2004 年 ， 澳 大 利 亚 的 麻醉 医生 Con Kolivas GR 
据 自述 ， 他 接触 Linux 内 核 时 还 不 会 C 语 言 ) 发 明了 
名 为 Staircase 的 调度 器 。 其 基本 设计 思想 是 抛弃 O(1) 
调度 嚣 中 那些 用 于 计算 动态 优先 级 的 复杂 代码 逻辑 ， 
而 尝试 采用 另 一 个 角度 来 解决 交互 式 任务 响应 速度 问 
题 。 其 依然 保留 了 active 结 构 体 (内 含 一 个 位 map 和 
queue[140] 数 组 ) ， 但 是 抛弃 了 expire 结 构 体 。 优 先 级 
仍 为 140 个 ， 并 且 对 实时 任务 的 调度 方式 不 变 。 

但 是 针对 普通 任务 ，Staircase 算 法 采用 了 滚动 下 
楼 梯 然 后 再 坐 电梯 上 楼 的 思路 。 如 图 10-153 所 示 ， 每 
个 任务 运行 一 段 默认 时 间 片 之 后 ， 其 将 被 挪动 到 低 一 
级 队列 中 继续 运行 默认 的 时 间 片 ， 一 直 运行 到 最 后 一 
级 ， 然 后 坐 电梯 升 到 比 之 前 所 在 的 原始 优先 级 的 低 一 
级 的 队列 上 ， 同 时 将 时 间 片 X2， 然 后 继续 一 层 层 下 
楼 ， 下 到 底 再 回 到 比 原始 优先 级 低 两 级 的 队列 ， 时 间 
片 X3， 继 续 下 。 一 直 循环 到 坐 电梯 也 只 能 到 139 级 
时 ， 重 置 该 任务 到 原始 状态 继续 上 述 规则 。 

Staircase 调 度 算法 相当 于 把 一 个 任务 的 时 间 片 分 
摊 到 了 每 个 级 别 中 ， 让 一 开始 高 优先 级 的 任务 逐 层 下 
落 ， 经 过 历练 之 后 再 提 上 来 并 附 以 对 应 倍数 的 时 间 
片 。 这 样 做 的 一 个 好 处 就 是 ， 那 些 休眠 中 的 任务 一 旦 
被 唤醒 ， 基 本 上 都 会 迅速 被 执行 ， 因 为 原先 和 该 睡眠 
任务 相同 优先 级 的 任务 都 落下 去 了 ， 这 样 就 自然 提升 


了 交互 式 任务 的 响应 速度 。 同 时 任务 一 层 层 地 下 落 ， 
可 以 露出 低 优先 级 的 任务 ， 让 底层 的 队列 成 为 当前 的 
被 运行 队列 ， 每 一 层 都 有 机 会 得 到 执行 ， 体 现 出 了 完 
全 公平 的 调度 思想 。 

这 个 调度 器 规则 如 此 简练 ， 以 至 于 当时 有 人 评价 
说 “This sounds too elegant. And even I can understand 
it. It can” t possibly work! ”。 可 事实 上 其 在 实测 中 的 
确 取得 了 相 比 0(1) 调 度 器 更 好 的 效率 。 然 而 其 有 一 个 
缺点 是 ， 某 个 任务 何 时 得 到 调度 执行 是 不 确定 的 ， 完 
全 取决 于 高 优先 级 队列 中 还 剩 下 多 少 任务 ， 如 果 能 够 
将 任何 任务 的 运行 时 间 变 得 可 预知 ， 接 近 于 常量 ， 那 
就 比较 理想 了 。 

为 此 ，Con 对 Staircase 调 度 器 进行 了 改动 ， 并 于 
2007 年 推出 了 Rotating Staircase Deadline Scheduler 
(RSDL) 调度 器 ， 并 随后 将 其 更 名 为 SD (Staircase 
Deadline) 。 为 了 让 每 个 任务 感受 到 固定 的 最 大 调度 
时 延 ， 每 个 任务 落 到 最 底层 之 后 ， 不 再 被 重 置 加 回 
之 前 的 优先 级 ， 而 是 到 expired->queue[140] 中 对 应 
的 原始 优先 级 层 上 等 待 (RSDL 算 法 相对 于 Staircase 
算法 又 重新 捡 回 了 expired 结 构 体 ) ， 直 到 所 有 active- 
>queue[140] 中 的 任务 全 都 被 移动 到 了 expired 中 之 
后 ， 将 active 和 expired 指 针 互 换 ， 重 新 循环 执行 ， 这 
个 过 程 如 图 10-154 所 示 。Con 将 任务 下 落 到 底 再 直 升 
到 次 优先 级 层 的 过 程 称 为 Minor Rotating; 将 active 和 
expired 指 针 互 换 称 为 Major Rotating。 这 些 命名 相当 于 
对 该 算法 进行 了 包装 和 具体 化 ， 让 人 能 够 有 更 深刻 的 
印象 。 

然而 仅仅 如 此 并 不 足以 固定 住 最 大 调度 时 延 ， 它 
只 是 封 住 了 最 底下 的 口子 ， 提 供 了 前 提 。 由 于 每 个 层 
级 上 的 任务 数量 是 不 定 的 ， 最 终 的 调度 时 延 依然 不 确 
定 。 为 此 ，RSDL 的 另 一 个 精髓 在 于 ， 除 了 每 个 任务 
有 各 自 的 时 间 片 之 外 ， 它 还 额外 给 每 个 层级 中 所 有 任 
务 设 定 了 公共 的 时 间 片 限额 ， 如 果 公 共 时 间 片 限额 耗 
尽 ， 对 应 层级 中 即便 依然 有 尚未 运行 的 任务 ， 这 一 整 
个 层级 中 所 有 任务 必须 都 下 落 一 层 ， 与 下 一 层 的 所 有 
任务 再 次 共享 该 层 的 共有 时 间 片 限额 。 上 述 整 个 过 程 
如 图 10-155 所 示 。 

这 样 ， 任 何 一 层 的 任务 其 调度 时 延 变 得 可 期 待 ， 
但 是 仍 无 法 做 到 精确 预知 ， 因 为 如 果 有 多 个 任务 位 于 
某 一 层 ， 在 轮 到 某 个 任务 执行 之 前 ， 该 层 的 公共 时 间 
片 被 前 面 的 任务 耗 尽 ， 那 么 该 任务 就 得 一 同 被 棕 连 到 
下 一 层 ， 而 是 否 在 下 一 层 中 有 机 会 得 到 执行 ? 这 也 成 
了 不 可 预知 的 事件 ， 不 过 ， 倒 是 可 以 将 上 一 层 没 来 得 
及 运行 的 任务 排 到 前 面 去 ， 但 是 ， 对 于 本 层 原 住民 来 
讲 ， 高 层 落下 来 的 任务 会 与 本 层 抢 占 公 共 时 间 片 ， 有 
些 任务 可 能 在 层 层 下 落 中 一 直 就 没有 得 到 运行 ， 为 了 
防止 这 种 状况 ， 上 层 下 落 时 可 以 将 自身 的 公共 时 间 片 
与 接纳 层 的 公共 时 间 片 合并 ， 同 时 需要 保证 公共 时 间 
片 必须 大 于 每 个 任务 私有 的 时 间 片 X 任 务 数量 ， 否 则 
就 会 有 任务 被 饿 死 。 
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由 于 各 种 原因 ，RSDL/SD 调 度 器 并 没有 被 
Linux 主 线 内 核 版 本 所 接纳 ， 最 终 胜出 的 是 CFS 
(Completely Fair Scheduler) 调度 器 。CFS 在 2.6.23 内 
核 版 本 中 进入 主线 ， 相 比 RSDL， 其 做 到 了 “完全 ” 
公平 。 
Ет» 

Con 后 来 又 发 明了 BFS ( Brain Еххх Scheduler ) 
调度 器 ， 专 门 针 对 CPU 核心 数量 少 于 16 个 的 小 系 
统 ， 比 如 手机 等 。 其 更 加 精简 迅速 ， 该 命名 显示 出 
Con 认 为 之 前 那些 复杂 架构 的 调度 器 太 过 精密 ， 对 
于 特定 场景 ， 简 单 到 近乎 脑残 的 调度 器 反而 返 瑛 归 
真 。 个 中 意味 或 许 只 有 Con 自 己 深 知 了 。 


10.5.6 沿用 至 今 的 CFS 普 通 任务 调度 器 


CFS 调 度 器 从 RSDL 调 度 器 中 吸收 了 “公平 ”的 
思想 ， 当 然 ， 公 平 并 不 等 于 平均 ， 每 个 任务 的 优先 级 
已 经 决定 了 它们 各 自 能 够 获得 资源 的 比重 。CFS 的 出 
发 点 也 是 根据 任务 的 优先 级 来 分 配 资源 ， 不 去 主动 
腾 测 谁 更 像 交 互 式 任务 而 给 予 特权 ， 这 一 点 原则 与 
RDSL 是 相同 的 ， 但 是 CFS 采 用 了 更 加 激进 的 全 局 完 
全 公平 思想 。 

写 到 这 还 是 要 提醒 读者 本 着 两 个 最 终 原则 来 审 
视 任何 一 款 调度 器 : 第 一 是 它 根据 什么 来 判断 下 一 个 
要 调度 谁 ， 第 二 是 每 个 任务 调度 运行 后 能 运行 多 长 时 
间 。 也 就 是 优先 级 和 时 间 片 ， 这 是 任何 一 个 调度 器 的 
唯 二 决策 点 。 


10.5.6.1 指挥 棒 变 为 运行 时 间 


审视 一 下 RSDL 的 实现 ， 可 以 发 现 排 在 低 优先 级 
上 的 任务 依然 是 受到 了 重重 压制 ， 高 优先 级 的 任务 在 
自己 的 等 级 上 耗费 完了 时 间 片 ， 被 下 放 到 下 一 等 级 却 
依然 还 可 以 继续 运行 (虽然 会 被 排 到 该 等 级 末尾 )， 
对 于 那些 排名 太 过 靠 后 的 等 级 任务 而 言 ， 这 其 实 是 一 
种 隐 含 的 不 公平 。 而 O(1) 调 度 器 会 将 每 个 耗费 完 时 间 
片 的 任务 挪动 到 expired 队 列 中 ， 从 而 不 再 影响 active 
队列 中 的 任务 ， 看 似 应 该 比 RSDL 更 合理 ， 但 是 RSDL 
是 把 任务 的 时 间 片 均 摊 到 每 个 等 级 上 了 ， 只 运行 一 点 
点 儿 时 间 就 被 降级 ， 从 而 能 够 更 快 地 让 出 当前 等 级 ， 
从 而 保证 那些 同等 级 已 休眠 的 任务 被 唤醒 后 能 够 快速 
执行 。 

不 管 怎样 ，O(1) 和 RSDL 调 度 器 的 原生 思维 仍然 
是 “优先 级 最 高 的 肯定 是 下 一 个 被 执行 的 ”， 从 这 
一 点 上 来 讲 ，RSDL 的 确 只 是 对 O(1) 的 修 修补 补 。 而 
CFS 调 度 器 并 不 是 看 谁 的 优先 级 高 就 去 调度 谁 ， 它 完 
全 抛弃 了 这 个 从 O(n) 开 始 就 被 遵循 的 原则 。CFS 遵 循 
的 原则 是 “优先 级 高 的 可 以 获得 更 多 的 运行 时 间 ， 
但 是 不 一 定 被 调度 执行 的 概率 也 高 ， 之 前 占用 CPU 
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时 间 最 小 的 任务 获得 最 高 的 调度 概率 而 不 管 它 的 优 
先 级 是 多 少 ”。 可 以 看 到 ，CFS 的 指挥 棒 突 然 变 成 了 
“占用 CPU 的 时 间 ”， 谁 之 前 占 得 最 少 ， 谁 就 下 一 
个 运行 。 

每 次 时 钟 中 断 ，scheduler tickO 调 度 统计 器 会 重 
算 当 前 任务 的 运行 时 间 并 现场 对 全 局 所 有 任务 按照 
运行 时 间 重新 排序 ， 当 然 ， 这 个 重 排序 操作 必须 为 
增 量 操作 ， 而 不 是 每 次 都 要 进行 全 盘 重 算 ， 否 则 效 
率 太 低 。 这 也 是 为 何 CFS 使 用 红 黑 平衡 二 叉 树 而 不 
是 链表 来 组 织 任务 的 原因 ， 因 为 对 二 叉 树 的 操作 时 
间 复 杂 度 为 O(logN)， 虽 然 不 如 O(1) 但 是 也 不 至 于 像 
O(n) 那 样 线性 增加 。 二 叉 树 中 的 所 有 任务 原生 已 经 
按照 运行 时 间 排 序 ， 每 次 时 钟 中 断 下 游 的 scheduler_ 
tick() 统 计 器 会 将 当前 任务 最 新 的 运行 时 间 算 出 并 且 
调整 当前 任务 在 二 叉 树 中 的 位 置 〈 增 量 重 排序 ) 。 
红 黑 二 又 树 最 左边 的 位 置 总 是 值 最 小 的 ， 所 以 pick_ 
next_task_fair() 每 次 直接 从 二 叉 树 最 左边 拿 到 的 就 
是 下 一 个 要 调度 的 任务 ， 不 需要 任何 搜索 操作 。 关 
于 二 又 树 / 红 黑 树 等 数据 结构 ， 篇 幅 所 限 请 读者 自行 
тм. 


10.5.6.2 weight/period/vruntime 


任务 的 优先 级 已 经 不 再 是 指挥 棒 ， 但 并 不 表示 
它 一 点 儿 用 处 也 没有 了 ， 其 影响 会 以 另 一 种 形式 提现 
到 任务 运行 时 间 中 ， 优 先 级 越 高 的 会 相应 分 到 更 多 的 
时 间 片 ， 但 是 绝对 不 可 能 发 生 “因为 我 优先 级 高 我 就 
得 先 运行 ”了 。 具 体 原则 是 : 在 100 一 139 这 40 个 优 
先 级 内 ， 每 提升 一 档 ， 就 可 多 占用 10% 的 CPU 运行 时 
间 ， 为 了 将 这 个 原则 具体 化 、 可 计算 化 ，CFS 引 入 了 
weight 的 概念 ， 并 按照 上 述 规则 给 每 个 优先 级 计算 出 
一 个 权重 值 ， 使 得 〈 每 一 级 权重 /所 有 级 权重 总 和 ) 这 
个 比值 在 多 个 档 位 之 间 的 增 量 都 是 10%， 然 后 将 这 40 
个 权重 值 记录 在 prio_to_weight[40] 数 组 中 ， 如 图 10-156 
左 侧 所 示 。 可 以 发 现 优先 级 越 高 的 任务 权重 也 相应 越 
高 。 如 果 直 接 用 100 一 139 优 先 级 值 来 体现 权重 的 话 ， 
无 法 做 到 10% 粒 度 的 增长 ， 所 以 必须 引入 更 精细 的 
weight 值 。 

那么 ， 具 体 的 时 间 片 等 于 多 少 呢 ? CFS 引 入 了 一 
个 period 的 概念 ，period 是 一 个 可 以 变化 的 值 。 任 何 
一 个 任务 的 时 间 片 =〈 该 任务 的 权重 /所 有 任务 权重 总 
和 ) Xperiod。 也 就 是 说 ， 假 设 所 有 任务 都 耗费 完 它 
各 自 的 时 间 片 ， 那 么 所 有 任务 都 轮流 执行 了 一 遍 的 时 
间 就 等 于 period， 其 也 被 称 为 一 个 调度 周期 ， 在 一 个 
调度 周期 内 ， 所 有 任务 按照 自己 的 权重 来 瓜分 CPU 执 
行 时 间 ， 如 果 所 有 任务 都 执行 完 各 自 的 时 间 片 ， 那 么 
一 个 调度 周期 内 所 有 任务 恰好 轮流 执行 一 遍 ， 谁 也 
不 会 被 落下 ， 体 现 了 公平 的 原则 。CFS 将 任务 的 时 间 
片 称 为 ideal runtime (理想 运行 时 间 ) ， 其 本 质 上 与 
time slice 并 没有 区 别 ， 只 是 名 称 变化 了 ， 计 算 方 法 变 
化 了 。 
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period 的 值 可 以 通过 在 用 户 态 对 /proc/sys/kernel/sched_latency_ns 以 及 /proc/ 
sys/kernel/sched min granularity_ns 这 两 个 文件 写 入 对 应 的 值 来 进行 控制 。 具 
体 的 控制 逻辑 如 图 10-156 中 间 和 右 侧 所 示 。 默 认 情况 下，period= sysctl sched | 
latency， 字 面 意思 就 是 调度 一 圈 耗 费 的 时 间 ， 也 就 是 最 后 一 个 被 调度 的 那个 任 
务 等 待 的 时 延 ， 也 就 是 任务 的 最 大 可 感受 的 调度 时 延 ， 这 是 一 个 固定 值 〈 这 一 
点 相对 其 他 调度 器 而 言 比 较 好 ) ; sysctl_sched_min_granularity 为 用 户 所 设置 
的 单个 任务 运行 时 间 片 下 限 ， 如 果 时 间 片 过 小 ， 会 非常 低 效 ， 所 以 设置 一 个 下 
限 ; sched_nr_latency 为 根据 所 设置 的 调度 周期 以 及 时 间 片 下 限 计 算出 来 的 每 
一 轮 调度 周期 能 够 调度 的 最 大 任务 数量 ， 其 值 = ѕуѕсії ѕсһей latency / sysctL_ 
sched_min_granularity。 函 数 “sched_periodO0 用 于 计算 动态 调度 周期 ， 因 为 随 
着 系统 中 运行 的 任务 数量 逐渐 增加 ， 固 定 的 period 值 会 导致 每 个 任务 分 得 的 时 
间 片 越 来 越 小 ， 所 以 此 时 要 提升 period 的 值 ， 其 会 判断 当前 系统 任务 数量 是 否 
已 经 超出 了 由 用 户 设 置 的 参数 计算 出 的 最 大 任务 数量 ， 如 果 超 出 则 将 period 的 
值 改 为 时 间 片 下 限 X 当前 可 运行 任务 数量 。 

说 完了 时 间 片 ， 再 说 说 如 何 记 录 对 应 的 信息 以 便 调 度 器 判断 谁 是 占用 CPU 时 
间 最 少 的 那个 任务 。 这 似乎 根本 不 是 个 值得 研究 的 问题 ， 因 为 分 得 时 间 片 最 小 的 


: ѕуѕсії sched latency / sysctl sched min granularity 


/proc/sys/kernel/sched min granularity ns 


用 户 可 向 下 面 文件 写 入 对 应 值 来 更 改 对 应 参数 : 


/proc/sys/kernel/sched latency ns 


sysctl sched min granularity : 用 户 设置 的 单个 任务 运行 时 间 片 下 限 
cy 


sysctl sched latency : 用 户 设置 的 调度 周期 默认 值 


Е Y 那个 任务 不 就 是 占用 CPU 最 少 的 那个 么 ? 这 可 不 一 定 ， 假 设 某 个 拥有 很 大 时 间 片 
I g Š ”的 任务 只 运行 了 一 点 儿 时 间 就 突然 被 时 钟 中 断 ， 然 后 被 抢占 ， 切 换 到 了 另 一 个 任 
ү ss 9 = Қ? 此 时 该 任务 可 能 才 是 占用 CPU 时 间 最 少 的 那个 。 另 外 ， 调 度 器 考察 的 是 自 
ә POE Ë 。 从 系统 运行 以 来 任务 的 总 共 占 用 时 间 的 累积 值 的 大 小 ， 而 不 是 瞬时 值 。 所 以 必须 
= {Др BO 。 有 一 种 方法 来 记录 每 个 任务 到 底 运 行 了 多 长 时 间 。 如 图 10-148 所 示 ，task_struct- 
Y 03 3 sched entitysPíljexec start PBE T CFSE ät (task_tick_fair0 函 数 ) 在 每 
5 PP Ë KREMER ЖӨН EIRENE nowt, HE 
5 EE us 32 ”把 pow 的 值 赋 给 exec_start) ， 在 将 now 写 入 该 字段 之 前 ， 会 先 计 算出 delta_exec = 
I EN а kal (now - curr->exec_start)， 也 就 是 本 次 中 断 相 比 上 次 中 断 时 的 差 值 ， 再 将 该 差 值 追 
т 3 š M: В Е 加 到 另 一 个 字段 : curr -> sum exec runtime += delta exec, sum exec_runtime ği Æ 
& 28525 Š 。 该 任务 的 累积 运行 时 间 长 度 了 。 好 了 ， 那 么 CFS 调 度 器 只 要 把 sum_exee_runtime 
ЕТІН = аа 它 就 是 下 一 个 要 运行 的 
S 9059, F ° 
45452 % E 但 是 仔细 一 想 不 有 要， 这 样 的 话 岂 不 是 将 优先 级 的 影响 给 抵消 了 ， 比 如 假 
| 3355 Š lo 设 任务 A 的 优先 级 为 139、 时 间 片 值 为 1， 任务 B 优 先 级 为 138、 时 间 片 信 为 2。 
š ЫЗАА 它们 的 sum_exec_runtime 初 始 值 都 为 0， 假设 A 先 运行 了 一 个 单位 时 间 ， 时 
= КЕРК m. 间 片 耗 尽 ， 轮 到 B 运 行 了 两 个 单位 时 间 ， 时 间 片 也 耗 尽 ， 此 时 A 的 sum_exec_ 
8. 5 runtime=1，B 的 则 为 2， 下 一 次 会 让 A 继续 运行 ，A 再 次 运行 一 个 单位 时 间 ， 此 
ЕГІЗІ 时 A 和 B 的 总 体 运 行 时 间 相 同 。 在 相当 一 段 时 间 内 ，A 和 B 其 实 会 平均 分 配 CPU 
БЕРЕ 时 间 ， 那 么 B 任 务 相 比 A 任 务 高 一 级 的 优先 级 ， 就 形同虚设 了 。 
was p bua a a 你 该 想到 应 该 怎么 解决 这 个 问题 了 ， 那 就 是 引入 vruntime (Virtual Runtime) 
„Казакия 的 概念 ， 让 高 优先 级 的 任务 的 vruntime 走 的 比 低 优先 级 的 慢 。 假 设 任务 A 优先 级 
тат" =1， 任 务 B 优 先 级 =2， 如 果 A 运行 了 物理 时 间 n， 其 对 应 的 vruntime 也 为 ;但 是 
EE 如 果 B 也 运行 了 物理 时 间 n， 则 它 的 vruntime 应 当 为 /2， 而 不 是 x。CFS 调 度 器 只 
оя 会 考察 vruntime 的 值 而 不 管 sum_exec_runtime 是 多 少 ， 它 只 将 vruntime 值 最 小 的 
есеје 任务 放置 到 红 黑 树 最 左边 。 此 时 ， 下 一 个 运行 的 依然 会 是 B， 这 样 ， 就 可 以 保证 
а 5952495 在 任意 时 间 段 内 ，B 总 比 A 获 得 二 倍 的 运行 时 间 ， 谁 让 B 比 A 优 先 级 高 呢 ? 就 得 
DA 这 样 。 
"КЕКЕЕРЕШ 实际 上 ， 前 文中 已 经 提 到 ， 优 先 级 只 有 40 级 ， 粒 度 太 粗 ， 最 终 需 要 将 其 转 
pa 547%” 换 为 weight。 如 果 让 nice=0〔〈 优 先 级 =120，weight=1024) 的 任务 的 sum exec_ 
Pu I ERES runtime = vruntime 的 话 ， 那 么 vruntime 的 运算 公式 就 是 : vruntime = sum exec | 
MEPEPLEET runtime X 1024/weight，weight 越 高 ， 优 先 级 越 高 ，vruntime 相 比 runtime 走 的 越 
Е НЕ 慢 ， 越 能 享受 到 更 多 调度 机 会 ， 同 时 享受 到 更 高 的 运行 时 间 片 限额 。 如 图 10-157 
Ту E DET. 所 示 为 引入 vruntime 之 后 的 任务 运行 调度 过 程 示 意图 。 
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图 10-157 中 值得 一 提 的 是 ， 如 果 某 个 任务 运行 时 没有 
将 时 间 片 (ideal rumtime) 全 部 耗费 完 之 前 发 生 了 某 次 时 о |+ 
钟 中 断 ， 在 scheduler tickO 调 度 统计 器 执行 统计 时 发 现 当 
前 任务 vruntime 已 经 不 是 最 小 的 了 ， 那 么 它 就 会 被 抢占 。 
当 该 任务 下 一 次 执行 时 ， 依 然 可 以 继续 执行 ideal_runtime 
这 么 长 的 时 间 ， 而 并 非 接 着 上 一 次 的 断 点 执行 完 剩余 的 时 
间 片 。 

再 来 看 看 任务 的 睡眠 和 唤醒 之 后 应 该 怎么 处 理 。 
10-157 中 结尾 可 以 看 到 任务 D 被 从 红 黑 树 中 删 掉 了 ， 证 明 
它 休眠 了 ， 它 休眠 时 的 vruntime=3， 假 设 经 过 相当 长 一 段 
时 间 之 后 ，D 才 被 唤醒 ， 而 此 时 A、B、C 的 vruntime 已 经 
积累 到 了 一 个 非常 大 的 数值 ， 比 如 1 小 时 ， 而 D 被 唤醒 后 加 
入 红 黑 树 ， 由 于 它 之 前 的 vrumtime=3， 那 么 它 将 在 相当 长 
一 段 时 间 内 持续 运行 ， 直 到 它 的 vruntime 增 长 到 与 A、B、 
CC 接近， 其 他 任务 才 有 机 会 运行 ， 这 显然 不 合适 。 

对 于 睡眠 的 任务 ， 其 vruntime 显 然 需 要 被 重 置 一 下 
到 一 个 合理 值 。 重 置 为 什么 值 合适 呢 ? 显然 ， 如 果 将 其 
vruntime 设 为 当前 红 黑 树 中 所 有 任务 vruntime 值 最 小 的 那 
个 (该 值 被 记录 在 cfs_rq.min_runtime 字 段 ， 并 在 每 次 统计 
时 更 新 ) ， 也 算 合 理 ， 此 时 该 任务 会 在 短 时 间 内 迅速 得 到 
执行 ， 从 而 提升 了 交互 式 任务 的 响应 速度 ， 相 当 于 只 要 任 
务 被 唤醒 就 会 很 快 得 到 执行 ， 而 且 运 行 一 段 时 间 之 后 其 
vruntime 就 会 超过 其 他 任务 ， 从 而 在 下 一 次 tick 周 期 让 出 
CPU， 给 其 他 任务 运行 机 会 。CFS 调 度 器 在 此 基础 上 还 会 
对 醒 来 的 任务 做 一 些 补偿 ， 也 就 是 将 重 置 后 的 vruntime 值 
再 减 掉 sysctl_sched_latency 值 ， 让 它 变 得 更 低 ， 持 续 运 行 
时 间 拉 长 一 些 ， 因 为 它 睡 眠 了 许久 ， 吃 了 亏 。 但 是 也 不 能 
补偿 太 多 ， 否 则 会 导致 其 他 任务 卡 顿 。 如 图 10-158 所 示 为 
任务 唤醒 时 的 主要 流程 。 

关于 CFS 调 度 器 的 其 他 细节 ， 包 括 更 多 的 字段 作用 、 
函数 算法 等 ， 篇 幅 所 限 不 多 介绍 了 ， 请 参考 图 10-159。 上 
述 框 架 已 经 可 以 让 大 家 了 解 CFS 全 貌 ， 自 己 看 代码 也 会 变 
得 比较 顺畅 。 

如 果 回 头 审视 一 下 RDSL 算 法 的 话 ， 就 会 发 现 其 并 没 
有 在 全 局 范围 内 做 到 CFS 这 种 完全 公平 的 程度 ， 而 只 是 相 
比 O(D) 调 度 器 更 加 公平 了 一 些 。 所 以 Linux 主 线 最 终 选 择 
了 CFS 调 度 器 也 是 理所当然 的 。 


10.5.7 ”多 处 理 器 任务 负载 均衡 


在 一 个 多 CPU/ 核 心 系统 中 ， 需 要 将 任务 有 效 地 分 摊 
到 多 个 CPU 对 应 的 rq 中 去 ， 做 到 物理 上 的 并 发 执行 。 这 个 
过 程 被 称 为 负载 均衡 ， 其 主要 实现 和 触发 在 两 个 地 方 ， 
schedule() > 10е balance() > load_balance0， 以 及 scheduler | 
tick() > trigger load balance() > run rebalance domains() > 
rebalance_domains() 中 。 前 者 是 当主 调度 器 发 现 当前 rq 中 已 
经 没有 可 运行 的 任务 了 ， 只 能 运行 idle 任 务 时 ， 尝 试 从 其 
他 CPU/ 核 心 的 rq 中 将 待 运行 的 任务 拉 ( 相 关 代 码 中 会 看 到 
pull 字 样 ) 到 自己 的 rq 中 运行 ， 实 现 负载 均衡 。 后 者 是 在 
调度 统计 期 间 主动 重新 均衡 任务 。 
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图 10-157 引入 vruntime 之 后 的 任务 运行 调度 过 程 示意 图 
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目前 的 多 处 理 器 系统 主流 架构 是 NUMA 而 不 是 
SMP 架 构 ， 在 NUMA 架 构 下 ， 不 同 处 理 器 的 访 存 性 能 
是 不 均衡 的 ， 处 理 器 之 间 、 处 理 器 与 内 存 控制 器 之 间 
的 距离 都 是 不 均衡 的 ， 其 性 能 也 会 不 均衡 。 如 果 有 两 
个 任务 耦合 比较 紧 ， 比 如 有 共享 变量 等 ， 如 果 把 它 俩 
强行 拉 远 ， 反 而 有 可 能 影响 性 能 。 所 以 负载 均衡 模块 


会 考虑 诸多 因素 来 决定 均衡 策略 。 
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内 核 根 据 迁 移 进 程 所 造成 的 影响 情 
况 设 置 了 不 同 层级 的 所 谓 调度 域 (sched_ 
domain) 。 最 小 一 级 也 是 最 优先 考虑 的 是 超 
线程 场景 ， 尽 量 往 同一 个 物理 核心 的 另外 一 
个 超 线程 核心 去 均衡 ， 所 以 一 个 物理 核心 上 
的 超 线程 虚拟 核心 组 成 了 最 底层 的 调度 域 ; 
再 往 上 就 是 一 个 物理 CPU 内 部 的 多 个 物理 核 
心 组 成 一 个 调度 域 ， 由 于 目前 最 新 的 CPU 内 
部 的 物理 核心 组 织 也 并 不 是 均衡 的 ， 比 如 
某 28 核 心 CPU 其 中 14 个 核心 分 布 在 一 个 Ring 
上 ， 另 外 14 个 分 布 在 另外 一 个 Ring 上 ， 两 个 
Ring 之 间 再 通过 高 速 总 线 连 ， 此 时 这 两 批 核 
心 之 间 也 形成 了 不 对 称 ， 所 以 也 有 必要 增 
加 一 级 调度 域 。 再 往 上 就 是 多 个 物理 CPU 芯 
片 之 间 形 成 的 调度 域 ， 比 如 那些 距离 近 的 
CPU 之 间 。 在 第 6 章 中 曾经 见 到 过 各 种 类 型 的 
NUMA 系 统 ， 有 些 甚至 引入 了 NC、NR 等 互 
连 芯片 ， 形 成 了 更 多 的 层级 ， 这 些 层级 都 可 
以 细 分 为 独立 的 调度 域 ， 就 看 内 核实 现 的 粒 
度 了 。 把 任务 迁移 到 越 远 越 高 层 的 调度 域 ， 
其 导致 的 潜在 性 能 影响 就 越 大 ， 所 以 高 层 调 
度 域 的 均衡 优先 级 也 越 低 。 至 于 调度 域 的 
细节 以 及 其 中 具体 的 算法 考虑 ， 请 大 家 自行 
了 解 。 

如 图 10-146 所 示 的 rq 结构 体 中 有 一 个 字段 
是 cpu_load[ ] 数 组 ， 该 数组 记录 了 该 rq 当前 以 
及 历史 时 刻 的 负载 值 ( 等 于 rq 中 所 有 任务 的 
weight 值 之 和 ) ， 用 于 给 负载 均衡 模块 提供 
决策 参考 ， 总 权重 值 大 的 rq 其 对 应 的 CPU 的 
运行 时 间 更 长 的 概率 就 更 高 ， 负 载 也 就 大 ， 
但 是 也 不 是 绝对 的 ， 比 如 高 权重 的 任务 也 可 
能 运行 很 短 的 时 间 就 主动 放弃 运行 ， 也 是 
有 可 能 的 。 如 图 10-160 左 上 方 所 示 的 update_ 
cpu_load0 函 数 ， 其 会 在 每 次 tick 下 游 更 新 cpu_ 
load[ ] 数 组 ， 具 体 规则 是 : cpu load[0] = load 
(该 CPU 当前 时 刻 的 load 值 ) , сри load[1] = 
(сри load[1] + load) / 2, cpu load[2] = (cpu | 
load[2] * 3 + load) / 4, cpu load[3] = (cpu | 
load[3] * 7 + load) / 8, cpu load[4] = (cpu | 
load[4] * 15 + load) / 16. cpu load[0]f& 7 4 
前 时 刻 CPU 的 load 情 况 ，cpu_load[1] 代 表 了 当 
前 CPU 过 去 一 小 段 时 间 的 总 体 load 情 况 ，cpu_ 
load[2] 代 表 了 当前 CPU 过 去 稍 长 一 段 时 间 的 
总 体 load 情 况 ， 等 等 ， 从 cpu_load[1] 到 cpu_ 
load[4]， 历 史 load 值 的 影响 依次 增加 。 似 曾 相 
识 的 一 点 是 ， 数 字 信号 均衡 处 理 中 也 是 用 类 
似 思 路 ， 历 史 的 信号 在 线路 上 的 残留 电压 会 
影响 新 到 来 的 信号 。 


进程 切换 后 的 清理 工作 


进程 切换 前 的 准备 工作 


通知 当前 进程 将 要 被 普 代 ， 并 做 一 些 铺 记 工作 


更 新 rq->clock 
| 


E E I E янга ] 


if (prev != next) 


将 当前 进程 TIF NEED_RESHED 标 志 置 位 


10-160 ”RT 子 统计 器 下 游 工 作 一 览 以 及 主 调度 器 下 游 逻 辑 一 览 


重新 分 配 时 间 片 
将 当前 进程 放 到 队 尾 


如 果 队 列 上 的 进程 不 止 一 个 


如 果 p->time_slice 等 于 0 


更 新 rq->cpu_load 


更 新 curr->exec_start 


更 新 rq->clock 
如 果 是 SCHED_RR 调 度 策略 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


10.5.8 任务 的 Affinity 


在 图 10-148 中 可 以 发 现 task_struct 结 构 体 中 有 一 
Jücpumask t cpus_allowed 字 段 ， 该 字段 其 实 是 一 个 
位 map， 位 数量 等 于 系统 中 目前 的 处 理 器 核心 数量 。 
如 果 对 应 位 为 1， 则 表明 schedule() 在 做 任务 负载 均 
衡 的 时 候 可 以 将 任务 迁移 到 该 核心 上 运行 ， 如 果 对 
应 位 为 0， 则 不 可 以 。 这 就 是 其 被 称 为 CPU MASK 的 
原因 。 

用 户 可 以 手动 指定 让 某 个 任务 只 可 以 运行 在 哪 
些 CPU 核 心 上 ， 这 被 称 为 设置 任务 与 核心 之 间 的 亲 和 
性 CAffinity) 。 注 意 ， 这 里 可 能 误解 的 一 点 是 ， 设 
置 亲 和 性 并 不 是 说 让 这 个 任务 同时 运行 在 这 些 核心 上 
以 提升 性 能 ， 即 便 设置 了 多 个 核心 ， 也 只 表明 该 任务 
可 以 在 这 些 核心 其 中 的 一 个 上 来 运行 ， 至 于 是 哪 一 
个 ， 完 全 取决 于 schedule0 针 对 负载 均衡 的 判断 结果 。 
schedule0 在 做 负载 均衡 时 会 根据 task_struct 中 的 cpus_ 
allowed 字 段 做 出 决策 。 

如 图 10-161 所 示 为 Windows 提 供 的 Affinity 设 置 界 
面 ， 在 Linux 下 则 提供 了 taskset 命 令 来 设置 ， 具 体 语 法 
自行 了 解 。 


图 10-161 Windows 提 供 的 Affinity 设 置 界面 


Linux 内 核 提供 了 sys_sched_getaffinity() 和 sys_ 
sched_setaffinity() 这 两 个 系统 调用 供用 户 态 程序 
(比如 上 面 的 taskset〉 调 用 从 而 获取 和 设置 对 应 的 
信息 。asmlinkage long sys sched setaffinity(pid_ 
t pid, unsigned int len,unsigned long — user *user_ 
mask_ptr) 是 sys_sched_setaffinity 接 口 的 完整 语法 。 
该 接口 下 游 入 口 则 是 内 核 函 数 sched_setaffinity(pid_ 
t pid, unsigned int cpusetsize, cpu set t *mask) 。 该 
函数 设置 进程 为 pid 的 进程 让 它 只 可 以 运行 在 mask 
位 图 所 设 定 的 核心 上 。 如 果 pid 的 值 为 0 则 表示 指定 
的 是 当前 进程 。 第 二 个 参数 cpusetsize 是 mask 的 长 
度 ， 通 常设 定 为 sizeof(cpu_set_t)。 如 果 当 前 pid 所 
指定 的 进程 此 时 没有 运行 在 mask 所 指定 的 任意 一 个 
核心 上 ， 则 该 函数 会 触发 一 次 任务 迁移 ， 将 其 从 其 
他 核心 上 迁移 到 mask 指 定 的 一 个 CPU 上 运行 ， 也 就 
是 说 该 调用 是 现场 同步 生效 的 。sched setaffinity() 
函数 底层 最 终 会 将 task_struct.cpus_allowed 字 段 设 
置 为 对 应 的 位 图 。 
可 以 看 到 ， 各 种 数据 结构 中 的 每 个 字段 都 在 默 


默 地 发 挥 着 它 的 作用 ， 内 核 中 的 代码 有 着 千 丝 万 缕 
的 联系 和 影响 ， 牵 一 发 而 动 全 身 ， 如 今 Linux 内 核 
已 经 到 了 4.xx 版 本 ， 甚 是 精密 而 复杂 ， 其 中 包含 一 
些 巧 妙 的 机 构 ， 也 含有 一 些 尾 大 不 掉 的 笨重 的 历史 
еж. 


10.6 中断 响应 及 处 理 


中 断 贯穿 着 系统 运行 的 始终 ， 比 如 时 钟 中 断 为 
系统 提供 吐 哄 参考 ， 供 内 核 记 录 当 前 的 时 间 ， 供 调 
度 统计 器 更 新 任务 运行 信息 继而 切换 任务 。 我 们 在 
本 书 之 前 章节 〈5.5.6.1、7.2 以 及 7.4.1.13) 中 简要 介 
绍 过 中 断 的 基本 框架 和 处 理 方式 ， 本 节 中 我 们 要 来 
展开 介绍 一 下 。 


10.6.1 中 断 相关 基本 知识 


10.6.1.1 Local 和 IO APIC 


如 图 10-162 所 示 ， 在 目前 Intel 主 流 CPU 架 构 中 ， 
ПО APIC 连 接 在 IO 桥 片 上 ， 统 一 接 入 处 理 器 前 端 总 线 
(比如 QPI) ， 每 个 处 理 器 核心 都 有 各 自 的 Local APIC 
注意， 每 个 物理 CPU 芯片 内 的 每 个 核心 都 有 独立 的 
Local APIC) ， 这 些 Local APIC 与 JO APIC 之 间 通 过 
Ring/QPI 前 端 总 线 相互 通信 。 图 中 右 侧 所 示 为 老 的 P6 
处 理 器 架构 ， 其 使 用 了 独立 的 APIC Bus， 中 断 信 号 并 
不 采用 数据 包 的 方式 传输 ， 而 是 直接 在 一 个 三 根 线 组 
成 的 传统 总 线 上 传递 。 


Еж» 

在 x86 架 构 下 曾经 出 现 过 三 代 的 Local APIC 模 
块 ， 分 别 为 82489DX 型 分 立 器 件 (80486 时 代 产 
物 ) 、 xAPIC (集成 于 核心 内 部 ) 以 及 x2APIC 
(升级 版 的 xAPIC ) 。 截 至 目前 最 新 的 Intel CPU 都 
使 用 的 是 x2APIC。 使 用 CPUID 指 令 可 以 查询 当前 
CPU 核心 内 集成 的 是 哪个 型 号 的 APIC。 


如 图 10-163 左 侧 所 示 ，APIC (包括 Local 和 I/O 
一 起 ) 可 以 被 整体 禁用 ， 而 只 使 用 传统 的 8259A 中 
断 控制 器 〈 俗 称 PIC) ， 这 些 芯 片 的 外 围 电路 上 都 预 
留 了 对 应 的 旁 路 设计 ， 可 以 通过 配置 对 应 的 寄存 器 
来 选择 对 应 的 模式 ， 如 果 禁 用 APIC， 则 8259A 的 信 
号 会 被 直接 导 通 到 处 理 器 核心 的 INTR 信 号 上 ， 同 时 
NMI 中 断 信号 也 不 会 连接 到 Local APIC 上 ， 而 是 单 
独 输出 到 一 根 线 。 当 然 ， 如 果 启 用 了 APIC 的 同时 也 
想 继续 使 用 8259A， 那 么 后 者 必须 连通 到 1/O APIC 
上 作为 一 个 级 联 的 中 断 控制 器 ， 同 时 NMI 信 号 也 会 
从 Local APIC 中 给 出 。 这 个 模式 的 配置 由 系统 IMCR 
(Interrupt Mode Configuration Register) 寄存 器 中 


Pentium and P6 
Family Processors 


第 10 章 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 区 于 时 


的 对 应 位 决定 ， 改 变 这 个 位 就 可 以 控制 上 
述 这 两 种 模式 的 切换 。 


External 
Interrupts 


8 2 如 图 10-163 中 间 所 示 ， 在 第 7.4.1.13 

ЋЕ O 节 中 介绍 过 的 MSIMSI-X 中 断 方式 中 ， 中 

ЗЕ а. РЧ 断 信号 变 成 一 个 访 存 请 求 发 送 给 CPU 上 的 

° = s oH Local APIC，PCIE 设 备 先 将 访 存 请 求 发 送 
8 |o „Аё e 给 PCIE 主 控制 器 ， 后 者 再 经 过 前 端 网 络 写 
5 E: = e 5 Е 到 Local APIC 上 ， 这 个 过 程 是 Bypass IO 
8 |5| 28 £ Š APIC 的 。 此 外 ， 处 理 器 之 间 也 可 以 直接 发 
8 9 E 2 2 о 送 IPI (Inter Processor Interrupt) PWr. 
а“ < 分 $ 外 ， 在 每 个 Local APIC 内 部 会 集成 一 个 高 


分 辩 率 的 计时 器 (High Resolusion Timer, 
HRTimer) 。 图 10-163 右 侧 所 示 为 Local 
APIC 与 IO APIC 上 的 配置 寄存 器 在 系统 物 
理 地 址 空间 中 的 位 置 。 

如 图 10-164 所 示 为 Local APIC( 后 简称 
LAPIC) 内 部 硬件 架构 图 以 及 关键 寄存 器 
结构 图 。 处 理 器 芯片 内 的 每 个 物理 核心 内 


Pentium 4 and 
Intel Xeon Processors 


Interrupts 
|<—|— External 
|«—— Interrupts 


Local 


部 都 有 一 些 本 地 的 IO 设备 ， 比 如 计时 器 、 
各 种 性 能 计数 器 〈 比 如 缓存 访问 时 延 、 
流水 线 排 空 次 数 等 ， 这 些 计 数 器 被 封装 在 
Performance Management Unit, PMU 
部 ) 、 各 种 环境 传感器 〈 温 度 / 电 压 等 ) 、 


| 


Interrupt | System Bus 
System Chip Set 


Local APIC 


Processor Core 


Bridge 
B PCI 
ЏО APIC 


Messages 


本 地 错误 状态 寄存 器 〈 指 LAPIC 模 块 内 部 
的 错误 ) 。 其 中 ， 计 时 器 和 本 地 错误 状态 


Processor #3 


Pentium4/Xeon 架 构 下 单 处 理 器 


寄存 器 就 位 于 LAPIC 模 块 内 部 ， 其 他 的 则 
处 于 CPU 片 内 其 他 位 置 。 这 些 核 心 内 部 的 
本 地 设备 产生 输出 /警告 时 也 需要 发 出 中 
断 。 那 么 这 些 设 备 中 断 对 应 的 中 断 号 、 中 
断 向 量 、Vector 是 多 少 呢 ? LAPIC 内 部 提 


CPU 
Local APIC 


供 了 一 个 Local Vector Table (LVT) , Ж 


Processor ЯЗ 


ФЕ (APIC 驱 动 程序 ) 在 系统 初始 化 时 可 以 
向 LVT 中 写 入 自 定义 的 中 断 向 量 、 中 断 触 
发 模式 等 各 种 配置 信息 。 当 这 些 设 备 发 出 
中 断 信 号 时 ，LAPIC 查 询 LVT 中 对 应 条 目 
即 可 知道 该 中 断 的 向 量 号 是 多 少 ， 要 求 怎 


图 10-162 Intel Xeon 和 老 架 构 下 中 断 控制 器 布局 示意 图 


CPU 
|- Interrupts 


Local APIC 


Interrupt 


Messages 


样 的 触发 模式 〈 电 平 ? 边沿 ? ) 。LVT 内 
部 结构 见 图 10-164 中 间 〈 桃 红色 标记 ) ° 


Processor #2 


Processor System Bus 
VOAPIC [< | External 


PCI 


LAPIC 还 预 留 了 LINT0/1 这 两 个 额外 的 信号 
用 于 接 入 其 他 可 能 的 设备 。 

针对 外 部 (比如 从 I/O APIC， 或 者 来 
自 PCIE 主 控制 器 的 MSI/MSI-X 消 息 ) 发 
来 的 中 断 信号 ，LAPIC 内 部 ( 右 下 角 ) 的 


IPIs 


System Chip Set 


CPU 


Pentium4/Xeon 架 构 下 多 处 理 器 


Local APIC 


Y 
Bridge 
' 


Interrupt 


= 


Messages 
Messages 


Protocol Translation Logic 会 负责 从 外 部 总 线 


Processor #1 


上 〈Ring/Mesh 前 端 总 线 ， 或 者 传统 的 3 导线 
APIC Bus) 将 IO APIC 发 来 的 中 断 消息 (内 
含 中 断 向 量 号 、 中 断 传送 模式 、LAPIC 的 地 
址 等 信息 ) 收入 并 分 析 然 后 做 出 动作 。 

总 结 一 下 ， 核 心 内 部 本 地 设备 发 出 的 


ІРІ5 


СРО 
Local АРІС 


Interrupt 


Messages | 


中 断 ，LAPIC 从 LVT 中 获取 中 断 向 量 ， 外 


1 大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


部 设备 发 出 的 中 断 ，LAPIC 直 接 


И 5 || 2 ii a 从 外 部 总 线 上 拿 到 中 断 向 量 。 
š h 88 | 8 | ИНЕ { 中 断 向 量 是 一 个 8 位 的 值 ， 因 为 
š | Е | НЕЕ х86 CPU 最 大 支持 256 个 向 量 。 

业 Ее % LAPIC 将 对 应 的 中 断 向 量 做 转换 


展开 ， 比 如 向 量 =0xAA， 其 十 


[РР š š š š 进 制 值 是 170， 则 展开 成 256 个 
ШШЕ 
Е { 0。 然 后 将 这 个 1 写 入 到 IRR 寄 存 

< а 器 (256 位 长 ) 中 的 第 170 位 上 ， 
3< > 以 表示 “170 号 向 量 对 应 的 中 断 


正 等 待 发 送 到 CPU 核心 ”。 由 于 
外 部 设备 发 出 中 断 信号 的 时 机 不 
确定 ， 所 以 只 要 LAPIC 收 到 了 信 
号 ， 就 将 对 应 向 量 写 入 IRR 等 候 
处 理 ， 假 设 所 有 255 个 向 量 对 应 
的 设备 同时 发 出 中 断 ， 那 么 IRR 
中 将 全 为 1， 然 而 这 是 不 可 能 发 
生 的 场景 。 

之 后 ，LAPIC 会 根据 中 断 的 
优先 级 〈 数 值 越 大 越 高 》 从 IRR 中 
找 出 最 高 位 的 位 ， 将 其 写 入 ISR 中 
对 应 的 位 ， 同 时 清 零 IRR 中 对 应 的 
位 ， 然 后 向 CPU 核心 发 出 中 断 信 
号 。 也 就 是 说 ，IRR 中 保存 的 是 
已 经 被 LAPIC 接 纳 但 是 还 没有 开 
始 执行 的 中 断 ，ISR 中 保持 的 是 当 
前 正在 执行 但 是 还 没有 完成 的 中 
断 。CPU 核 心 会 从 ISR 中 读 取 对 应 
的 向 量 然后 根据 由 内 核 初始 化 的 
中 断 向 量 表 查 到 对 应 的 中 断 服务 
程序 入 口 执行 。 中 断 返回 后 ， 中 
断 服务 程序 需要 对 EOI 寄 存 器 做 一 
次 写 操作 ，LAPIC 便 知道 本 次 中 
断 处 理 完 成 ， 于 是 清 零 TSR 中 对 应 
的 位 。 
提示 > 

如 果 LAPIC 收 到 的 是 NMI/ 

SMIINIT/ExtINT 类 型 的 中 断 ， 
则 不 让 其 等 候 在 IRR 和 ISR 中 ， 
而 是 直接 发 送 给 CPU 核 心 。 因 
为 这 些 中 断 都 是 需要 紧急 处 
理 的， 其 中 ，NMI 为 不 可 屏蔽 
中 断 ，INIT 为 与 电源 加 电 / 掉 
电 相关 的 中 断 ，SMI 是 System 
Management Interrupt， 与 系统 
管理 相关 的 中 断 。ExtINT 为 对 
传统 8259A PIC 的 模拟 。 
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图 10-163 ”PIC 模式 、MSIMIS-X 模 式 以 及 APIC 在 地 址 空间 中 占用 的 地 址 
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之 间 会 采用 数据 包 的 方式 ， 利 用 Ring/ 
Mesh 等 前 端 访 存 网 络 互 相传 递 数据 。 
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10-166 APIC 总 线 上 的 数据 传输 格式 


另外 ， 图 中 所 示 的 老 架 构 下 ， 当 IO APIC 发 送 了 一 条 
APIC 消 息 之 后 ， 所 有 位 于 APIC 总 线 上 的 LAPIC 都 会 
收 到 该 消息 (因为 是 总 线 ) ， 它 们 会 按照 消息 中 给 出 
的 Destination ID 来 解码 地 址 从 而 判断 该 消息 是 否 是 发 
送 给 自己 的 。 而 基于 Ring/Mesh 等 系统 总 线 的 新 架构 
下 ，APIC 消 息 就 是 单 播 了 (Destination ID 被 转换 为 
Ring/Mesh 网 络 的 地 址 ， 所 以 也 可 以 将 Ring/Mesh 数 据 
包 地 址 设置 为 广播 /组 播 地 址 实现 广播 /组 播 ) 。 

IO APIC 内 部 也 有 类 似 LAPIV 的 LVT 一 样 的 表 
格 ， 被 称 为 JO Redirection Table， 软 件 可 以 配置 这 个 
表格 中 对 应 的 项 目 ， 比 如 第 一 项 被 配置 为 : 中 断 向 
量 =254、 传 送 模式 =NMI、 触 发 方式 = 边沿 型 、 目 标 
LAPIC ID=xxxx。 那 么 INTR#1 管 脚 上 如 果 收 到 了 中 断 
信号 ，L/O APIC 就 会 按照 上 述 配置 格式 化 一 条 APIC 消 
息 发 送 给 LAPIC，LAPIC 再 按照 对 应 逻辑 中 断 CPU 核 
心 。 由 于 IO APIC 最 大 可 接 入 24 个 中 断 信 号 ， 所 以 该 
表 对 应 的 也 有 24 个 条 目 。 

IO APIC 并 没有 像 LAPIC 那 样 暴露 大 量 的 寄存 器 
到 地 址 空间 中 ， 而 是 只 暴露 了 IOREGSEL 以 及 IOWIN 
这 两 个 寄存 器 ， 通 过 这 两 个 寄存 器 ， 程 序 可 以 读 写 IO 
APIC 内 部 的 任意 寄存 器 ， 方 法 是 先 把 要 读 取 的 寄存 器 
的 号 码 offset 写 入 IOREGSEL 寄 存 器 ， 然 后 从 IOWIN 寄 
存 器 读 出 的 数据 就 是 对 应 offset 的 寄存 器 的 数据 ;把 要 
写 入 的 数据 写 入 到 IOWIN 寄 存 器 ， 然 后 再 将 目标 寄存 
器 号 offset 写 入 到 IOREGSEL 寄存器 ，IO APIC 就 会 将 
IOWIN 中 的 数据 写 入 到 目标 寄存 器 。 这 个 过 程 与 程序 
对 PCIPCIE 配 置 空间 的 读 写 机 制 是 一 样 的 。 


10.6.1.2 8259A (РІС) 中 断 控制 器 
8259A 中 断 控制 器 是 8086 CPU 时 代 的 产物 ， 


目前 基本 已 经 被 淘汰 了 。 不 过 上 文中 的 IO APIC 的 
一 些 核心 思路 其 实 都 是 继承 自 8259A。 其 被 俗称 为 
PIC (Programmable Interrupt Controller， 或 Peripheral 
Interrupt Controller) 。 如 图 10-167 所 示 为 8259A PIC 的 架 
构图 ， 其 采用 INT 和 INTA 管 脚 与 CPU 相连 ， 有 中 断 到 
来 时 ，PIC 向 INT 发 信号 ，CPU 一 侧 准备 接收 中 断 时 ， 
则 向 INTA 发 信号 ，PIC 收 到 INTA 信 号 后 ， 将 中 断 向 量 
放置 到 左上 角 的 8 位 数据 总 线 上 供 CPU 一 侧 读 取 。 

可 以 发 现 其 中 的 IRR/ISR 寄 存 器 ， 其 作用 与 VO АРС 
相同 。 另 外 还 有 一 个 独立 的 IMR 寄 存 器 用 于 选择 性 屏蔽 
某 个 中 断 号 。8259A PIC 也 支持 中 断 优 先 级 并 且 可 配置 
成 多 种 模式 ， 默 认 是 按照 中 断 号 排序 ， 也 可 以 设置 为 比 
如 Rotating 模 式 〈 最 高 优先 级 中 断 发 出 后 ， 该 中 断 号 即 
被 降级 为 最 低 优先 级 ， 所 有 中 断 号 轮流 优先 ) 。 

82594 PIC 提供 了 20H 和 21H 这 两 个 1O 地 址 供 程序 
写 入 对 应 的 控制 参数 ， 程 序 必须 按照 固定 顺序 (上 图 
右 侧 所 示 ) 来 写 入 4 组 初始 化 参数 ICW1/2/3/4〈 命 令 控 
制 字 ) 对 PIC 进程 初始 化 ， 完 成 初始 化 之 后 ， 程 序 可 
以 写 入 OCW (操作 控制 字 ， 共 三 种 ) 来 现场 更 改 PIC 
的 其 他 运行 参数 ， 如 图 10-168 所 示 。 

这 些 命令 字 可 以 从 字面 猜测 其 含义 ， 如 果 想 要 
深究 请 自行 查阅 对 应 手册 。 这 里 只 介绍 其 中 与 中 断 
向 量 有 关 的 命令 字 : ICW2。 默 认 情 况 下 ，PIC 的 0 号 
管 脚 (Pin#0， 图 中 的 IR0)〉 对 应 的 中 断 向 量 也 是 0， 
但 是 前 面 说 过 ，CPU 保 留 了 前 32 个 中 断 用 于 内 部 异 
常 中 断 ， 所 以 需要 将 PIC 的 中 断 号 统一 加 32，ICW2 
寄存 器 就 是 干 这 个 用 的 。 当 某 个 中 断 到 来 时 ，PIC 将 
对 应 Pin/IR 号 写 入 ICW2 的 低 3 位 中 ， 比 如 IR7 到 来 ， 
就 写 入 111; 配置 程序 将 00100 写 入 ICW2 的 高 5 位 ， 
那么 PIC 会 将 整个 ICW2 的 值 作为 中 断 向 量 ， 也 就 是 
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图 10-168 ICW3/4U ЖОСУУ1/2/3 


00100111=39， 发 送 给 CPU， 此 时 就 不 会 与 保留 的 向 
量 号 冲突 了 。 所 以 高 5 位 可 以 用 来 控制 将 这 8 个 向 量 整 
体 搬移 到 某 个 offset 上 。 


10.6.1.3 MSIVMSI-X 底 层 实 现 


曾经 在 第 7 章 中 介绍 过 MSI/MSI-X 中 断 模式 。 结 
合 APIC， 在 此 重新 审视 一 下 其 底层 原理 ， 建 议 先 回顾 
一 下 7.4.1.13 节 中 的 内 容 。 如 图 10-169 左 侧 所 示 为 MSI 
Address Register 和 MSI Data Register 内 部 的 各 字段 含 
义 。MSI Data Register 中 的 低 8 位 包含 对 应 的 中 断 向 量 
的 基 序号 ， 其 他 字段 用 于 标识 该 中 断 的 触发 方式 、 传 
输 模式 等 。MSI Address Register 中 的 20~63 位 为 固定 
值 ， 不 同 设备 的 该 字段 值 相 同 ， 其 中 ，20 一 31 位 值 为 
0xFEE，0 一 19 位 可 变 ， 不 同 设备 该 区 域 值 不 同 。 可 以 
看 出 ， 不 管 0 一 19 位 为 何 值 ，Address Register 中 的 地 
址 值 总 是 处 于 0xFEE00000 与 0xFFE00000 的 这 1MB 空 
间 内 ， 再 翻 回去 看 看 图 10-163 右 侧 的 地 址 布局 ， 发 现 
这 个 空间 就 是 LAPIC 内 部 的 各 个 寄存 器 所 占据 的 地 址 
空间 。 


那么 ，LAPIC 内 部 一 定 需要 准备 对 应 的 寄存 器 
用 于 接收 外 部 设备 写 入 的 Data Register 中 的 内 容 ， 从 
而 获得 中 断 向 量 和 其 他 控制 信息 。 但 是 在 图 10-164 左 
侧 并 未 发 现 这 种 寄存 器 。 实 际 上 设备 发 出 的 携带 有 
MSI Data 的 TLP 存 储 器 写 请 求 并 不 会 被 PCIE 主 控制 器 
直接 发 送 给 目标 地 址 ， 仔 细 观 察 就 会 发 现 ， 每 个 核心 
上 都 有 一 个 LAPIC， 它 们 的 寄存 器 如 果 是 直接 可 被 外 
界 寻 址 的 ， 那 么 它们 每 个 都 要 占据 物理 地 址 空间 中 的 
一 定量 地 址 ， 而 事实 上 地 址 空间 中 只 有 1MB 的 空间 
留 给 一 个 虚拟 的 LAPIC。 也 就 是 说 ， 每 个 核心 访问 这 
1MB 的 地 址 空间 时 ， 其 实 访问 的 都 是 自己 附属 的 那个 
LAPIC， 对 应 的 访 存 请 求 会 被 地 址 路 由 模块 路 由 到 自 
己 跟 前 的 LAPIC 处 。 这 1MB 地 址 空间 实际 上 是 每 个 核 
心 私有 的 ， 而 不 是 共享 的 。 如 果 从 PCIE 设 备 端 访问 
这 段 空间 ，PCIE 主 控制 器 会 将 访问 该 段 地 址 的 TLP 包 
截获 并 终结 掉 ， 而 将 其 翻译 成 对 应 的 APIC 事 务 数据 
包 ，APIC 数 据 包 中 携带 有 MSI Data， 数 据 包 的 目标 地 
址 也 不 再 是 存储 器 地 址 ， 而 是 APCI ID ОРН Ж У 
$8) ， 这 个 ID 就 是 从 Address 中 提取 出 来 的 Destination 


э» 


第 10 章 ЛЕ — ЗЕЕ ЕЕЕ 


ID，PCIE 主 控制 器 还 会 从 Address 中 的 
2 一 11 位 携带 的 控制 信息 来 判断 该 如 何 
翻译 Destination ID. 

所 以 PCIE 主 控制 器 在 MSI/MSI-X 
模式 下 充当 了 中 断 控制 器 的 作用 ， 其 
识别 所 有 的 、 地 址 位 的 20 一 31 位 的 值 为 
0xFEE 的 TLP 包 并 截获 ， 并 根据 TLP 地 
址 中 的 0 一 20 位 所 对 应 的 参数 来 执行 对 
应 动作 。 


10.6.1.4 1PI 处 理 器 间 中 断 


软件 可 以 将 对 应 的 命令 字 (包含 
中 断 向 量 和 其 他 中 断 控 制 信息 ， 见 图 
10-164 橙 色 标识 位 置 ) 写 入 ICR 寄 存 器 
(ICR 寄 存 器 由 两 个 32 位 组 成 ， 先 写 高 
32 位 ， 写 低 32 位 时 会 自动 触发 IPI 中 断 发 
送 ) 从 而 触发 对 其 他 CPU 核心 〈 或 者 对 
自己 ) 的 IPI 中 断 。IPI 可 以 用 来 做 中 断 
转发 ， 比 如 原本 是 发 送 给 核心 A 的 中 断 
向 量 为 8 的 中 断 ， 核 心 A 可 以 利用 IPI 将 
其 转发 给 核心 B、 向 量 a 来 处 理 。 由 于 同 
一 个 系统 内 的 不 同 CPU 核 心 可 能 会 有 不 
同 的 中 断 向 量 表 ， 所 以 同一 个 向 量 号 可 
能 对 应 不 同 的 中 断 处 理 程序 ， 不 同 向 量 
号 也 可 能 对 应 着 同一 个 中 断 服 务 程序 。 
通过 对 ICR 中 的 Destination ID 字段 赋予 
不 同 的 值 ， 可 以 实现 IPI 广 播 ， 将 该 中 
断 消息 发 送 给 所 有 或 者 除 自己 外 的 所 有 
CPU 核心 。APIC 总 线 采 用 Destination ID 
来 路 由 。 

值得 一 提 的 是 ，IPI 并 不 是 指 某 种 
特殊 的 中 断 类 型 (Delivery Mode 字 段 
表示 的 INIT、Startup、Fixed 等 ) ， 其 
可 以 为 任意 类 型 ， 只 不 过 是 从 CPU 核心 
发 出 的 ， 而 不 是 从 传统 所 认为 的 外 部 I/ 
O 设 备 发 出 ， 仅 此 而 已 。 所 以 读者 大 可 
以 给 由 外 部 设备 发 出 的 中 断 起 名 为 EDI 
CExternal Device Interrupt) 。 

还 记得 第 6 章 6.5.3.2 节 中 讲述 系统 启 
动 时 CPU 核心 选举 时 的 场景 么 ?” BSP 核 
心 会 利用 INIT IPI 广 播 来 唤醒 其 他 睡眠 
中 的 核心 ， 并 利用 Startup ІРІ (下 简称 
SIPI) 通知 目标 核心 从 哪里 执行 代码 。 
图 10-164 橙 色 标识 处 的 ICR 寄 存 器 就 是 
用 来 盛 放 待 发 送 的 IPI 中 断 消息 的 。 从 
其 中 可 以 看 到 ，Delivery Mode 字 段 有 
多 种 类 型 ， 其 中 ，101 (ІМІТ) 和 110 
CStartup) 这 两 种 IPI 的 区 别 在 于 ，INIT 
IPI 的 Vector 字段 可 以 是 任意 的 ， 因 为 收 
到 该 IPI 的 LAPIC 会 做 重新 RESET 自 己 后 


(R) ”Ring 网 络 控制 器 


СО APIC 消 息 事 务 


CO tems 


MSI-X 表 
支持 MSI-X 的 PCIE 设 备 


rr 
ЛИИ г) 


Message Data Register 


支持 MSI 的 PCIE 设 备 


Message Address Register 


主 控制 器 


PCIE Host 


32 


=INIT 
110=Reserved 


Logical) 
100=NMI 
111=ExtINT 


Physical, 


No redirection, 


图 10-169 ”MSI/MSI-X 和 APIC 基 本 架构 示意 图 


Lowest Priority 101 


=Fixed 
SMI 
Reserved 


n mode to determine 


Ж 


8 

Delivery Mode 
'000-Fi 
001 
010: 
011 


Destination Mode (0: 
Specifies how Destination ID will be interpreted 


Redirection Hint (0: 


Utilize de 


12 
message reci 


RH = 


1 


DM 


| 


system will be the recipient the 
Message Signaled Interrupt 


MSI Address Register 
М$! Data Register 


=Assert, 
=Deassert 


Trigger Level 
1 
0: 


20 19 


Specifies which processor in t 
15 14 


Edge 
Level 


Trigger Mode- 
0 
1 


63 

31 

63 
1 


及 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


面 的 核心 ， 所 以 称 之 为 INIT IPI， 而 SIPI 的 Vector 字段 
会 携带 有 一 个 内 存 地 址 (而 不 是 中 断 号 ， 请 注意 ) ， 
收 到 该 类 型 I PI 的 LAPIC 核 心 会 通知 目标 核心 直接 跳 
转 到 该 地 址 执行 。 但 是 由 于 Vector 字 段 仅 有 8 位 ， 所 
以 其 表示 的 地 址 最 大 为 0x*FF， 可 寻 址 256 字 节 范 围 ， 
这 看 上 去 根本 没 法 用 。 实 际 上 ， 目 标 LAPIC 会 将 这 
个 特殊 地 址 这 样 来 译 码 : 将 其 值 乘 以 4096〈 左 移 12 
位 ) ， 相 当 于 其 形式 变 为 0x000FF000， 也 就 是 说 ， 如 
果 Vector 中 的 地 址 为 0xAB， 则 接收 这 个 IPI 的 核心 会 从 
0x000AB000 处 执行 代码 ， 而 0x000FF000 这 块 地 址 区 
域 位 于 物理 地 址 的 1MB 左 右 ， 如 图 10-163 所 示 ， 其 刚 
好 为 Shadow BIOS 的 位 置 ， 在 初始 化 时 ，BIOS 会 将 自 
己 复制 到 物理 RAM 中 被 映射 到 1MB 的 那个 区 域 。 在 
多 核心 CPU 系 统 初始 化 时 ， 仍 位 于 实 模 式 ， 主 核心 会 
使 用 SIPI 唤 醒 副 核心 执行 对 应 的 位 于 BIOS 中 的 初始 化 
代码 。 而 在 主 核心 将 操作 系统 初始 化 到 一 定 程度 时 ， 
此 时 已 经 进入 了 保护 模式 ， 分 页 等 机 制 也 都 被 start_ 
kernel() 函 数 初始 化 完毕 ， 在 随后 的 kernel_ initO 中 会 
执行 smp_init()， 该 函数 下 游 会 先后 采用 INIT IPI 以 及 
SIPI 来 通知 副 核 运行 对 应 的 入 口 代码 ， 入 口 代码 会 判 
断 当前 CPU 是 不 是 主 核 ， 如 果 不 是 ， 则 不 执行 start_ 
kernel(0) 函 数 ， 而 会 落 入 主 核 已 经 帮助 副 核 心 铺 执 好 的 
进程 中 ， 转 为 执行 start_secondary0 函 数 初始 化 副 核 ， 
最 后 执行 到 cpu_idle0 循 环 。 

LAPIC 中 的 Protocol Translation Logic 会 负责 从 总 
线 上 拿 到 APIC 中 断 消 息 ， 它 负责 解析 其 中 内 容 并 做 出 
动作 ， 所 以 当 它 看 到 对 应 中 断 类 型 为 INIT 时 ， 则 忽略 
Vector 字段 ; 如 果 是 Startup 则 将 Vector 值 左 移 12 位 输送 
到 CPU 跳 转 到 该 地 址 执行 。 

既然 IPI 只 意味 着 中 断 源 的 位 置 是 核心 自身 ， 那 么 
是 否 意味 着 外 设 也 可 以 发 出 INIT 和 Startup 类 型 的 中 断 
呢 ? 这 取决 于 IO APIC 上 的 IO Redirection Table 中 对 应 
该 中 断 线 的 条 目 中 的 Delivery Mode 被 设置 为 什么 ， 如 
果 是 使 用 MSLMSI-X 方 式 的 PCIE 设 备 ， 则 取决 于 对 应 
的 MSI Data Register 中 的 Delivery Mode 字 段 值 。 不 过 ， 
从 图 10-169 下 方 可 以 看 到 ，MSI Data Register 中 的 110 这 
个 Mode 是 Reserved， 在 IO APIC 的 寄存 器 手册 中 也 明 
确 说 明 110 Mode 为 Reserved， 这 表明 如 果 将 Delivery 
Mode 设 置 为 110， 硬 件 电路 检查 到 之 后 会 产生 错误 
(在 Error Status Register 中 记录 ) 并 可 能 引发 一 个 
Error 中 断 。 所 以 Startup 的 中 断 类 型 是 无 法 从 外 部 设备 
发 出 的 ， 这 就 杜绝 了 外 部 设备 让 CPU 任意 跳 转 到 某 个 
地 址 执行 代码 的 可 能 。 但 是 INIT 类 型 并 没有 被 禁止 。 

内 核 中 有 个 比较 有 趣 的 函数 smp_call_function_ 
single() > generic exec single() > arch send call | 
function single ipi) > smp ops.send call func single | 
ipiO。 该 调用 链 的 作用 是 利用 NMI 类 型 的 IPI 来 通知 
对 方 CPU 执 行 某 个 函数 。 不 过 ， 其 并 不 是 通过 将 函 
数 物 理 地 址 放置 到 Vector 中 然后 用 Startup 类 型 的 IPI 通 
知 目标 CPU 的 ， 而 是 预先 在 中 断 向 量 表 中 的 高 序号 


处 (比如 250 号 以 后 ) 注册 了 一 些 专门 用 于 处 理 IPI 的 
中 断 服务 函数 ， 比 如 ，#define CALL FUNCTION - 
SINGLE VECTOR 0xfb， 其 他 核心 上 的 程序 首先 
将 待 执行 函数 的 指针 压 入 一 个 专用 队列 Cstruct сай | 
single queue) ， 然 后 向 目标 核心 发 出 NMI 或 者 Fixed 
类 型 的 IPI，Vector 字 段 给 出 对 应 的 中 断 号 Coxfb) , 
就 可 以 让 目标 核心 执行 专门 处 理 CALL ЕОМСТЮМ_ 
SINGLE VECTOR 这 个 功能 的 IPI 中 断 服 务 程序 ， 该 程 
FFA Асай single queue 取 出 之 前 被 压 入 的 指针 然后 开 
始 执行 目标 函数 。 还 有 其 他 一 些 专门 针对 IPI 的 向 量 ， 
比如 ，#define ERROR APIC VECTOR 0х; #4ейпе 
RESCHEDULE VECTOR Oxfd; £define CALL_ 
FUNCTION VECTOR 0xfc; #4ейпе THERMAL - 
APIC VECTOR Oxfa; #4ейпе THRESHOLD APIC | 
VECTOR 0х®; #define REBOOT VECTOR Oxf8; 
#define INVALIDATE ТІВ VECTOR END 0xee。 可 
以 发 现 它们 的 向 量 号 都 比较 大 。INVALIDATE_TLB 
是 一 个 比较 关键 的 功能 ， 比 如 当 某 个 任务 修改 了 页 
表 之 后 〈 比 如 新 映射 、 去 映射 了 物理 页 ， 或 者 修改 
了 页 面 访问 权限 等 ) ， 由 于 其 他 核心 的 TLB 中 可 能 会 
缓存 这 些 条 目 而 导致 新 修改 的 结果 无 法 在 这 些 核 心 
上 生效 ， 所 以 在 修改 了 页 表 之 后 需要 使 用 IPI 广 播 通 
知 其 他 核心 将 TLB 作 废 掉 ， 这 个 过 程 也 被 人 称 为 TLB 
Shootdown。RESCHEDULE_VECTOR 则 是 触发 目标 
CPU 核心 执行 一 次 重新 调度 ， 当 然 ， 具 体 是 由 位 于 
0xfd 向 量 处 的 相关 IPI 处 理 函 数 来 完成 。 只 有 INIT 和 
Startup 类 型 的 IPI 不 需要 服务 函数 处 理 ， 而 是 直接 由 
CPU 核心 自主 处 理 。 

再 次 强调 ，IPI 并 不 是 中 断 的 某 个 种 类 ， 它 并 不 
描述 中 断 原因 ， 而 只 是 描述 了 中 断 的 路 径 ， 也 就 是 
被 谁 报告 上 来 的 。 它 与 JO APIC 中 断 、8259 PIC 中 
断 、MSI 中 断 可 以 相提并论 ， 但 是 并 不 能 与 时 钟 中 
断 、 异 常 中 断 等 相提并论 。IPI 中 断 被 处 理 时 ， 对 应 
的 中 断 服务 函数 会 按照 IPI 消 息 中 给 出 的 Vector 来 统 
计 系 统 中 各 种 中 断 的 次 数 信息 。 比 如 ， 如 果 Vector 
是 LOCAL TIMER VECTOR， 系 统 会 统计 到 LOC 
而 不 是 IPI 类 型 中 断 次 数 +1。 如 果 Vector 的 值 为 上 文 
中 所 述 的 那些 只 有 通过 IPI 传 送 的 中 断 ， 那 么 其 可 以 
被 统计 到 IPI 中 断 中 ， 早 期 内 核 直接 用 IPI0、IPI1、 
JPI2 来 标识 这 些 中 断 ， 后 来 则 改 用 实际 名 称 缩写 。 


10.6.1.5 可 屏蔽 /不 可 屏蔽 中 断 


现在 我 们 来 说 说 CPU 接收 到 中 断 信号 之 后 发 生 的 
事情 。CPU 怎 么 知道 一 个 中 断 到 来 了 呢 ? 当然 是 对 应 
的 INTR 信 号 导线 的 电 平 被 拉 低 或 者 拉 高 (看 具体 实 
现 ， 高 低 都 行 ) ，CPU 内 逻辑 电路 在 每 个 指令 执行 结 
束 时 都 会 对 这 个 电 平 采样 并 输送 到 中 断 控制 模块 ， 中 


断 控制 模块 只 要 发 现 这 个 电 平 为 低 /高 ， 就 去 寻 址 中 
断 向 量 表 〈 实 际 上 是 IDT， 下 文 详 述 ) ， 找 到 中 断 服 
务 程序 入 口 地 址 ， 然 后 ， 把 当前 寄存 器 中 的 CS、IP、 
FLAGS、SP、SS 寄 存 器 保存 到 当前 任务 的 内 核 栈 中 
(内 核 栈 SP 从 当前 TSS 中 的 ESP0 中 获取 ) ， 后 续 发 生 
的 事情 就 是 中 断 服 务 程序 处 理 过 程 了 ， 下 文 详 述 。 

也 就 是 说 ，CPU 并 不 是 任意 时 刻 都 可 以 被 强行 中 
断 的 ， 是 否 中 断 ， 是 CPU 通过 判断 INTR 电 平 而 主动 做 
出 的 决定 ， 并 不 是 一 来 信号 马上 就 中 断 ， 因 为 总 得 给 
CPU 一 定 的 准备 时 间 ， 比 如 把 上 一 条 指令 执行 完毕 、 
排 空 流水 线 等 。 否 则 指令 执行 到 一 半 就 被 中 断 ， 这 个 
烂摊子 是 没 法 收拾 的 。 中 断 会 引发 排 空 流水 线 ， 所 
以 中 断 会 严重 影响 CPU 性 能 。 但 是 中 断 又 是 必须 的 ， 
这 就 是 矛盾 所 在 。 如 果 关 掉 现 在 的 主流 CPU 的 中 断 响 
应 ， 只 让 它 持续 运行 一 个 任务 ， 比 如 视频 转 码 、 压 缩 
等 ， 会 发 现 速度 可 能 会 提升 一 大 截 。 所 以 ，CPU 很 累 
的 ， 每 执行 一 条 指令 都 要 看 一 眼 有 没有 中 断 ， 不 过 还 
好 ， 这 可 以 用 逻辑 电路 来 实现 ， 将 各 种 输入 信和 号 输 
入 判断 逻辑 ， 输 出 值 ， 这 也 算是 CPU 的 一 种 “本 能 ” 
吧 ， 所 以 估计 它 也 不 会 感到 多 “ 累 ”。 

x86 的 CLI 指 令 可 以 关闭 中 断 响应 ， 其 底层 实际 上 
是 将 EFLAGS 寄 存 器 中 的 下 《Interrupt Flag) 位 设置 为 
0， 这 样 ，CPU 每 执行 完 一 条 指令 时 ， 如 果 正 =0， 则 不 
再 去 关心 INTR 的 电 平 ， 或 者 说 正信 号 与 INTR 信 号 做 了 
一 个 AND 操 作 ， 只 要 看 该 与 门 的 输出 就 可 以 了 ，0 就 表 
示 不 用 处 理 中 断 ， 但 是 并 不 表示 中 断 没有 到 来 。 当 使 
用 STI 指 令 再 次 打开 中 断 时 ， 就 会 继续 处 理 中 断 。 

但 是 正 标志 =0 对 于 NMI (None Maskable Interrupt) 
中 断 、IntySysenter 软 中 断 指令 、 异 常 导 致 的 中 断 是 无 效 
的 。NMI 中 断 一 般 用 于 在 系统 发 生 严重 的 、 如 果 不 处 
理会 导致 系统 宕 机 的 、 或 者 即便 处 理 了 也 会 宕 机 但 是 
至 少 损失 少 一 些 的 时 候 。 比 如 ， 电 源 控制 模块 上 ， 比 
如 突然 掉 电 时 ， 由 于 电源 、 主 板 电 容 中 尚 存 的 电量 仍 
然 可 供 系 统 继续 运行 大 概 10ms 左 右 的 时 间 ， 别 小 看 这 
10ms， 对 于 计算 机 可 以 做 不 少 事情 ， 比 如 CPU 可 以 将 
缓存 fttush 到 RAM， 如 果 RAM 使 用 的 是 NVDIMM (一 种 
非 易 失 性 RAM) ， 则 可 以 保证 不 丢 数据 。 当 电源 检测 
到 外 部 供电 突然 断 开 时 ， 可 立即 向 其 连接 的 中 断 控 制 
器 〈 比 如 IO APIC) 发 出 中 断 信号 ， 同 时 IO APIC 针 对 
该 管 脚 在 IO Redirection Table 中 对 应 条 目 中 被 预先 配置 
为 采用 NMU 方 式 传送 ， 那 么 IJO APIC 将 整 条 NMI APIC 
Msg 传 送 给 LAPIC， 后 者 通过 NMI 线 中 断 CPU 核心 ， 
CPU 核心 就 必须 无 条 件 响应 该 中 断 。NMI 的 中 断 向 量 
被 恒定 设置 为 2， 不 可 变更 ， 也 就 是 说 CPU 核心 收 到 
NMI 中 断 之 后 ， 不 会 来 读 取 ISR 的 值 ， 而 是 直接 到 中 断 
向 量 表 中 的 第 二 项 找 执行 入 口 。 

如 果 LAPIC 将 ISR 中 的 第 二 个 位 置 1， 然 后 通过 INTR 
线 来 中 断 CPU，CPU 也 会 执行 NMI 中 断 服 务 程 序 ， 但 是 
却 没 有 NMI 的 效果 ， 也 就 是 说 如 果 IF=-0， 这 个 中 断 就 会 
被 屏蔽 等 待 。 另 外 ， 从 NMI 线 进入 的 中 断 ，CPU 执 行 
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NMI 中 断 服务 程序 一 直到 iret 指 令 这 期 间 ，CPU 会 自动 屏 
项 其 他 所 有 中 断 〈 包 括 下 一 个 NMI 中 断 ) 。 

早期 的 CPU 比如 8086， 其 NMI 线 是 独立 于 
8259A 控 制 器 的 ， 这 意味 着 产生 NMI 信 号 的 设备 必 
须 直 接连 接 到 这 个 管 脚 上 ， 如 果 有 多 个 设备 都 会 产 
生 NMI 信 号 ， 则 将 这 些 信 号 进行 线 与 操作 ， 任 何 一 
个 信号 都 可 以 拉 高 NMI 管 脚 电 平 。 而 有 了 LAPIC 的 
代言 之 后 ，LO APIC 可 以 将 APIC 消 息 中 的 Delivery 
Mode 字 段 编码 成 100〈 表 示 NMI) 发 送 给 LAPIC， 
后 者 再 将 该 消息 转换 为 通过 NMI 线 中 断 CPU 核心 。 
对 于 APIC 内 部 的 设备 ， 可 以 配置 LAPIC 的 本 地 LVT 
ВОВЕ, IN 10-164 НТ, ВДНХ 
的 寄存 器 结构 所 示 。 

除了 突然 掉 电 之 外 ， 比 如 内 存 的 ECC 校 验 错误 、 
总 线 校 验 错误 、Watchdog 〈 一 个 定时 器 ， 定 时 触发 NMI 
中 断 ， 中 断 服务 程序 检测 某 个 每 次 都 会 被 常规 时 钟 中 
断 下 游 改变 的 变量 是 否 相 对 上 一 次 检查 时 候 有 变化 ， 
如 果 没 变化 ， 表 示 当 前 系统 可 能 由 于 被 其 他 程序 关中 
断 + 死 锁 导致 卡 死 ， 则 Watchdog 中 断 服务 程序 强制 重启 
系统 ) 等 ， 都 会 触发 NMI 中 断 。 但 是 NMI 的 中 断 入 口服 
务 程序 只 有 一 个 ， 难道 它 能 够 处 理 所 有 这 些 事件 么 ? 


10.6.1.6 中断 的 共享 和 谍 套 


很 多 时 候 由 于 设备 过 多 ， 中 断 控制 器 的 管 脚 又 少 ， 
不 得 不 让 多 个 设备 共享 同一 个 中 断 线 (MSVMSI-X 方 式 
没有 这 个 问题 ) ， 多 个 信号 相 OR 或 者 AND， 这 样 不 管 
哪个 设备 发 起 了 中 断 ， 该 管 脚 都 被 抬升 或 者 拉 低 电 平 。 
该 管 脚 对 应 的 中 断 向 量 只 有 一 个 ， 入 口服 务 程序 也 只 能 
有 一 个 ， 但 是 可 以 将 共享 该 中 断 线 的 所 有 设备 的 中 断 服 
务 程序 注册 到 一 个 链表 上 ， 中 断 到 来 之 后 ， 先 执行 主 服 
务 程 序 ， 它 调用 链表 头 部 第 一 个 程序 函数 执行 ， 每 个 注 
册 的 函数 被 调用 时 都 会 先 去 读 各 自 所 驱动 的 设备 的 对 应 
的 寄存 器 看 看 是 不 是 该 设备 发 送 的 中 断 ， 如 果 是 就 处 
理 ， 处 理 完 就 返回 到 主 服务 程序 ， 如 果 不 是 ， 则 会 返回 
对 应 的 结果 码 ， 从 而 中 断 服务 主 入 口 程 序 继续 调用 链表 
中 下 一 个 函数 ， 直 到 命中 真 的 发 出 中 断 的 那个 设备 的 中 
断 服 务 函数 ， 后 者 会 处 理 中 断然 后 返回 ， 最 终 主 服 务 程 
序 iret 结 束 中 断 。 

如 果 CPU 正 在 处 理 一 个 中 断 〈ISR 中 尚 存 有 为 1 
的 位 ) 期 间 ， 又 来 了 一 个 更 高 优先 级 的 中 断 ， 那 么 
LAPIC 会 继续 通知 CPU 核心 。 一 般 来 说 ，x86 CPU 会 
在 接收 到 外 部 中 断后 自行 关闭 中 断 响应 ， 或 者 由 中 断 
服务 程序 在 刚 开始 运行 的 时 候 手动 关中 断 ， 但 是 中 断 
服务 程序 运行 到 后 期 可 能 会 重新 打开 中 断 〈 通 过 调用 
local irq_enable0 函 数 ) ， 此 时 ， 高 优先 级 中 断 会 将 
上 一 个 中 断 处 理 过 程 再 次 中 断 掉 ， 当 这 个 高 优先 级 中 
断 处 理 完 iret 时 ， 返 回 到 的 是 上 一 个 被 中 断 的 中 断 处 
理 过 程 的 断 点 ， 然 后 再 次 iret。 这 种 中 断 嵌 套 可 以 循 
环 发 生 。 每 次 进入 中 断 处 理 时 ， 中 断 服务 程序 会 在 
当前 任务 thread_info.preempt_count 字 段 的 HARDIRQ_ 


有 到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


MASK 字 段 +1， 如 果 本 中 断 被 高 优先 级 中 断 嵌 套 中 
断 ， 则 后 者 处 理 过 程 中 再 将 其 +1， 内 核 可 以 判断 该 字 
段 的 值 来 判断 当前 是 否 正 处 于 嵌 套 中 断 过 程 中 ， 并 可 
以 判断 出 嵌 套 了 几 层 。 


10.6.1.7 ”中断 内 部 /外 部 优先 级 


上 文中 提 到 过 ， 外 部 中 断 有 自身 固有 的 优先 级 ， 
256 个 中 断 每 32 个 分 为 一 组 ， 具 有 相同 优先 级 ， 这 样 
256 个 中 断 共有 16 个 优先 级 组 。LAPIC 内 部 会 对 优先 
级 进行 判断 ， 根 据 PPR 的 值 判断 是 否 发 送 给 CPU。 然 
而 CPU 在 运行 的 时 候 也 会 出 现 一 些 异 常 之 类 的 内 部 中 
断 。 另 外 ， 外 部 的 RESET 信 号 也 算是 一 种 独立 于 INTR/ 
NMI 信 号 线 之 外 的 中 断 信号 ， 其 实 RESET 才 是 更 优先 
的 。 那 么 ， 摆 在 CPU 了 眼前 的 就 有 如 下 多 个 中 断 源 。 

(D CPU 出 现 异常 导致 的 内 部 中 断 〈 这 些 中 断 的 
向 量 号 一 般 分 布 在 0 一 31 保 留 向 量 ， 外 部 不 能 使 用 ) 。 

(2) 软件 主动 触发 的 中 断 。 又 分 intsysenter СА 
ТКН) ЖИРІ ( 写 ICR 寄 存 器 ) 两 种 。 

(3) 直接 连接 到 CPU 的 INTR/NMI 信 号 线 的 设备 
触发 。 

(4) 位 于 Local APIC 内 部 的 设备 触发 的 中 断 。 

(5) 连接 到 LO APIC 的 外 部 设备 触发 的 中 断 。 

(6) PCIE 设 备 通 过 MSLMSI-X 方 式 触发 。 

其 中 ， (6), (5), (4) 可 以 统一 到 131， 
为 它们 最 终 都 是 通过 INTR/NMI 信 号 线 传递 给 CPU 核 
心 的 。 所 以 CPU 最 终 面 对 的 其 实 是 三 个 大 类 别 的 中 断 
源 。 这 些 中 断 源 可 能 会 同时 发 出 中 断 ， 那 么 CPU 在 执 
行 完 一 条 指令 时 必然 要 选择 先 执行 谁 。 

如 图 10-170 所 示 为 从 CPU 视角 判断 的 中 断 优 先 级 。 
所 以 ，LAPIC 只 是 对 外 部 中 断 做 了 第 一 层 优先 级 排序 ， 
而 CPU 核心 内 部 的 中 断 处 理 模 块 还 会 做 第 二 层 排 序 。 


10.6.1.8 中 断 Affinity 及 均衡 


上 文中 总 结 了 几 种 中 断 源 ， 总 体 来 说 它们 只 会 
从 4 个 物理 器 件 中 发 出 : 核心 内 部 深 处 、 核 心 内 部 的 
LAPC 自 己 、IO APIC>QPI 控 制 器 、PCIE 主 控制 器 。 
核心 内 部 深 处 发 出 的 中 断 比 如 异常 中 断 等 肯定 是 自行 
消化 了 ， 不 会 让 其 他 核心 来 帮忙 处 理 ， 也 没有 道理 这 
样 。 而 后 面 三 种 都 有 可 能 发 给 其 他 核心 处 理 。 比 如 核 
心 A 的 LAPIC 发 出 一 个 针对 某 个 、 某 几 个 或 者 所 有 其 
他 核心 、 所 有 核心 (连同 自己 ) 的 IPI， 有 明确 的 中 
断 目标 ， 而 对 于 IO APIC 或 者 PCIE 主 控制 器 发 出 的 中 
断 消息 ， 可 以 没有 明确 的 倾向 性 ， 发 送 到 哪个 核心 都 
没有 问题 ， 但 是 为 了 让 用 户 能 够 手动 调节 中 断 负载 均 
衡 ， 也 需要 提供 对 应 的 机 制 让 它 可 以 指定 发 送 目标 。 
由 于 这 种 需求 上 的 不 同 ， 在 IO APIC 和 LAPIC 之 间 形 
成 了 一 套 中 断路 由 规则 。 

如 图 10-171 所 示 分 别 为 由 PCIE 设 备 发 出 的 MSI/ 
MSI-X 中 断 消息 〈 位 于 MSI Data 和 Address 寄 存 器 
中 ) 、 由 LAPIC 发 出 的 IPI 中 断 消息 〈 位 于 ICR 中 ) ~ 


10 (Lowest) Faults on Executing an Instruction (Cont.) 


9 Faults from Decoding the Next Instruction 


1 (Highest) Hardware Reset and Machine Checks — 4 Traps on the Previous Instruction 


General Protection 


Data Page Fault 


Alignment Check 


x87 FPU Floating-point exception 


SIMD floating-point exception 


Virtualization exception 


- Instruction length » 15 bytes 


- Invalid Opcode 


- Breakpoints 


- RESET 


= Debug Trap Exceptions (TF flag set or data/I-O breakpoint) 


5 Nonmaskable Interrupts (NMI) 1 


6 Maskable Hardware Interrupts 1 


7 Code Breakpoint Fault 


- Machine Check 
2 Trap on Task Switch 


- Coprocessor Not Available 


10 (Lowest) Faults on Executing an Instruction 


- T flag in TSS is set 


3 External Hardware Interventions 


Bound error 


Invalid TSS 


Segment Not Present 


Stack fault 


8 Faults from Fetching Next Instruction 


- FLUSH 


- Code-Segment Limit Violation 


= ЅТОРСІК 


-SMI 
-INIT 


- Code Page Fault 


图 10-170 Intel CPU 对 中 断 优先 级 的 判断 规则 


第 10 章 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 本 


由 IO APIC 发 出 的 中 断 消息 (位 于 1/O Redirection 
Table 条 目 中 ) 格式 ， 在 这 里 我 们 不 去 考察 这 些 消 息 
底层 的 编码 格式 、 承 载 它 的 链 路 帧 格式 ， 而 只 关心 
上 层 (表示 层 ) 格式 。 其 中 ，Destination ID 字段 (8 
位 ) 中 给 出 了 该 消息 的 目标 CPU 的 APIC ID， 前 端 
访 存 网 络 根据 该 地 址 来 路 由 到 目标 LAPIC。 当 该 值 
=0xFF 时 ， 表 示 广 播 地 址 ， 所 有 LAPIC 都 将 收 到 该 消 
息 。 那 么 ， 既 然 中 断 消息 中 大 的 ID 字段 只 有 一 个 ， 
如 果 要 同时 发 送 给 多 个 〈 非 全 部 ) 目标 ， 也 就 是 组 
播 ， 该 如 何 解决 ? 

为 此 ， 又 给 每 个 LAPIC 定 义 了 一 个 Logical 
Destination ID， 并 将 其 放 在 LAPIC 内 部 的 LDR (Logical 
Destination Register) 寄存 器 中 。 每 个 LAPIC 的 Logical 
ID 中 只 有 一 个 为 1 的 位 而 且 互 不 相同 ， 这 样 ， 中 断 消 
息 中 的 Destination ID 如 果 为 00001111， 则 该 消息 会 被 
组 播 给 Logical ID 为 00000001、00000010、00000100、 
00001000 的 这 4 个 LAPIC。 这 种 方式 相当 于 把 一 个 原本 
可 以 表示 256 个 不 同 地 址 的 8 位 数 展开 了 Сао ， 让 它 
只 能 表示 8 个 地 址 ， 但 是 却 可 以 同时 寻 址 8 个 地 址 中 的 
多 个 。 所 以 该 模式 又 被 称 为 Flat Logical ID 模式 。 

8 个 地 址 实在 是 太 少 ， 为 了 扩展 Logical ID 的 可 寻 
址 数量 ， 又 提供 了 一 种 Cluster Logical ID 模式 。 该 模式 
下 ， 只 把 Logical ID 中 的 低 4 位 展开 ， 而 高 4 位 仍然 可 表示 
2 后 16 个 数值 ( 抛 开 全 1 的 广播 地 址 的 话 是 15 个 ) ， 低 4 位 
展开 ， 最 大 表示 4 个 地 址 ， 这 样 共 可 表示 15X4=60 个 地 
址 。 高 4 位 相同 的 所 有 Logical ID 对 应 的 LAPIC 组 成 了 一 
个 Cluster。 但 是 该 模式 下 ， 一 条 中 断 消息 最 多 可 以 被 组 
播 给 单个 Cluster 内 部 的 4 个 ID， 无 法 跨 Cluster 组 播 〈 不 能 
同时 发 送 给 不 同 Cluster 中 的 LAPIC) 。 

那么 ， 如 何 切换 Flat Logical 和 Cluster Logical 
模式 ? 于 是 ， 在 LAPIC 内 部 又 设置 了 一 个 叫 作 
Destination Format Register (DFR) 的 寄存 器 〈4 位 
AR) ， 当 其 值 被 设置 为 0000 时 表示 该 LAPIC 
的 Logical ID 使 用 Flat 模 式 ， 如 果 为 1111 则 表示 使 用 
Cluster 模 式 。 注 意 ，LAPIC 可 以 同时 支持 使 用 物理 
APIC ID 和 Logical ID 来 被 寻 址 到 。Linux 内 核 在 初始 化 
时 会 将 每 个 LAPIC 的 Logical ID 以 及 DFR 写 入 ， 后 续 不 
再 改变 ， 可 以 通过 在 编译 内 核 时 选择 对 应 的 选项 来 控 
制 内 核 写 入 不 同 的 值 到 DFR 寄 存 器 。 如 图 10-172 所 示 
JgFlat/Cluster Logical ID 模式 的 规则 一 览 。 

明白 了 上 述 规则 ， 我 们 就 可 以 推演 出 如 何 控制 让 
某 个 Vector 对 应 的 中 断 只 被 发 送 给 : 某 个 、 某 几 个 、 
全 部 、 某 几 个 中 选 一 个 的 目标 LAPIC 了 。 

只 发 送 给 一 个 目标 ， 可 以 使 用 Logical 或 者 
Physical ID 模式 ， 发 给 某 几 个 目标 ， 就 只 能 使 用 
Logical 模 式 了 ; 发 给 全 部 ， 则 需要 使 用 Logical/ 
Physical 模 式 + 广 播 地 址 。 这 几 种 场景 下 ， 中 断 消息 中 
的 Delivery Mode 可 以 被 设置 为 Fixed Mode， 也 就 是 固 
定 模 式 ， 也 就 是 只 要 Destination ID 中 〈 不 管 是 Physical 
还 是 Logical) 命中 了 某 个 LAPIC， 该 LAPIC 就 要 无 


000 = Fixed 


16 151413121110 9 8 7 


1/O Redirection Table Entry 
56 55 48 

1 = Sel when Local-APICs accept Level-Interrupt 
Interrupt Input-pin Polarity 
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001= 
010 
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图 10-171 LAPIC、IO APIC 体 系 结构 下 的 中 断路 由 规则 


10 = al including self 
11 = all excluding self 


MSI Data Register 


MSI Address Register 


System will be the recipient the: Iwas 
Message Signaled Interrupt 


Specifies which processor in the FEU 


大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


Local APIC #0 


Local APIC #1 


Local APIC #6 


Local APIC #7 


最 大 可 并 行 组 播 给 8 个 LAPIC 


某 中 断 消息 : 

Destination Mode = Logical 
Destination ID = 11011011 
Delivery Mode = Fixed 


将 被 组 播 给 : LAPIC #0/1/3/4/6/7 


某 中 断 消息 : 


Delivery Mode = Fixed 
将 被 单 揪 给 : LAPIC #6 


Destination Mode = Physical 
Destination ID = APIC ID#6 


某 中 断 消息 : 

Destination Mode = Logical 
Destination ID 1111111 
Delivery Mode = Fixed 
将 被 广播 给 : 所 有 LAPIC 


某 中 断 消息 : 

Destination Mode = Physical 
Destination ID =11111111 
Delivery Mode = Fixed 
将 被 广播 给 : ”所 有 LAPIC 


某 中 断 消息 : 
Destination Mode = Logical 
Destination ID 
Delivery Mode 


=11011011 
= Lowest Priority 
将 被 发 送 播 给 : LAPIC #0/1/3/4/6/7 中 PPR 值 最 小 的 那个 


某 中 断 消息 : 
Destination Mode = Logical 
Destination ID 


不 支持 这 种 参数 组 合 ! 


=11111111 
Delivery Mode = Lowest Priority 


某 中 断 消息 : 


Destination ID 
Delivery Mode 
不 支持 这 种 参数 组 合 ! 


Destination Mode = Physical 
=11111111 
= Lowest Priority 


最 大 可 并 行 组 播 给 15 Clusters ，15x4=60 个 LAPIC 


ифи : 

Destination Mode = Logical 
Destination ID = 10101011 
Delivery Mode - Fixed 
将 被 组 播 给 : LAPIC #0/1 


ир 

Destination Mode = Logical 
Destination ID = 11010001 
Delivery Mode = Fixed 
将 被 单 播 给 : LAPIC #2 


ыт: 

Destination Mode = Logical 
Destination ID = 11111111 
Delivery Mode = Fixed 

将 被 广播 给 : 所 有 LAPIC 


某 中 断 消息 : 

Destination Mode = Physical 
Destination ID = АРГС10#1 
Delivery Mode = Fixed 


жәнне: 

Destination Mode = Physical 
Destination ID 

Delivery Mode = 


某 中 断 消息 : 

Destination Mode = Logical 
Destination ID = 11111111 
Delivery Mode = Lowest Priority 


KRAIS: LAPIC #1 


将 被 广播 给 : ”所 有 LAPIC 


不 支持 这 种 参数 组 合 ! 


Mode = Logical 
Destination ID = 10100011 
Delivery Mode = Lowest Priority 
将 被 发 送 播 给 : LAPIC #0/1 中 PPR 信 最 小 的 那个 


某 中 断 消息 : 

Destination Mode = Physical 
Destination ID = 11111111 
Delivery Mode = Lowest Priority 
不 支持 这 种 参数 组 合 ! 


10-172 Flat/Cluster Logical ID 模式 的 规则 一 览 


条 件 接收 并 处 理 中 断 。 如 果 Delivery Mode 为 Lowest 
Priority 模 式 ， 则 命中 的 LAPIC 并 不 会 都 去 执行 该 中 
断 ， 而 是 只 有 这 个 / 些 被 命中 的 LAPIC 中 的 PPR 值 最 
小 的 那个 才 会 执行 ， 如 果 Destination ID 只 命中 了 一 个 
LAPIC， 那 么 该 LAPIC 一 定 会 执行 该 中 断 。 

很 多 时 候 ， 并 不 需要 把 中 断 组 播 或 者 广播 给 其 他 
核心 ， 而 是 只 希望 让 一 个 核心 来 处 理 就 足够 了 ， 而 且 
希望 每 次 中 断 被 路 由 到 的 核心 不 同 ， 这 样 可 以 负载 均 
衡 。 于 是 有 了 下 面 的 模式 。 


发 给 某 几 个 候选 者 中 的 一 个 (PPR 值 最 小 的 那 
个 ) ， 必 须 将 中 断 消息 中 的 Delivery Mode 设 置 为 
Lowest Priority 而 不 是 Fixed。 对 于 早期 的 P6/Pentium 
平台 CPU，APIC 之 间 使 用 3 线 APIC 总 线 方式 互 连 ， 
所 以 天 然 是 一 个 广播 总 线 ， 当 总 线 上 的 所 有 LAPIC 接 
收 到 中 断 消 息 之 后 ， 首 先 按照 自己 的 DFR 和 LDR 中 
被 配置 的 规则 和 地 址 ， 去 比 对 收 到 的 中 断 消息 中 的 
Destination ID， 不 匹配 则 丢弃 ， 匹 配 则 收入 ， 然 后 进 
一 步 比 对 Delivery Mode， 如 果 是 Fixed， 则 接纳 本 次 


中 断 并 处 理 ， 如 果 是 Lowest Priority 模 式 ， 由 于 多 个 
ILAPIC 的 PPR 值 可 能 相同 ， 所 以 需要 进入 总 线 仲裁 步 
又 ， 将 各 自 的 PPR 值 和 Ar 位 ration ID 依次 放置 到 总 线 
上 比比 大 小 ，PPR 值 最 小 的 获胜 ， 如 果 PPR 值 相同 ， 
则 Arb.ID 值 最 小 的 获胜 ， 由 于 Arb.ID 值 都 不 相同 ， 总 
会 有 一 个 获胜 者 。 每 个 LAPIC 连 接 到 总 线 上 的 信号 会 
被 线 与 在 一 起 ， 然 后 输送 回 每 个 LAPIC 的 判断 逻辑 
上 ， 仲 裁 时 所 有 LAPIC 将 PRP 和 Arb.ID 按 照 从 高 位 到 
低位 顺序 两 位 为 一 组 放 到 总 线 上 摊牌 比 大 小 ， 比 如 如 
果 某 个 LAPIC 的 PRP 的 高 两 位 是 11， 而 其 他 LAPIC 的 高 
两 位 假设 都 是 9， 则 该 LAPIC 会 检测 到 00， 则 它 便 知道 
自己 并 不 是 PRP 值 最 小 的 ， 所 以 推出 仲裁 静 候 (每 种 
事务 耗费 的 总 线 周期 是 固定 的 ， 所 以 它 知道 该 等 到 什 
么 时 候 开始 下 一 轮 事务 ) ， 剩 下 的 LAPIC 也 都 检测 到 
00， 发 现 和 自己 的 值 是 一 样 的 ， 无 法 分 清 胜 负 ， 所 以 
继续 出 下 两 张 牌 ， 一 直到 最 后 如 果 还 不 行 ， 就 开始 出 
底牌 ， 把 各 自 的 ArbID 放 上 来 ， 最 终 决胜 负 。 

由 于 Linux 内 核 初始 化 时 会 将 每 个 LAPIC 的 TRR 的 
值 设 置 为 全 0， 相 当 于 不 使 用 该 功能 ， 所 以 每 次 基本 
上 都 需要 仲裁 决定 了 。 这 就 会 导致 一 个 问题 ，Arb.ID 
最 小 的 那个 LAPIC 总 是 获胜 者 ， 它 的 负载 也 就 最 高 。 
这 就 是 为 什么 在 这 些 平台 下 即便 是 设置 了 中 断 Affinity 
结果 发 现 中 断 还 是 总 落 在 某 个 核心 上 的 原因 。 

而 对 于 较 新 的 Pentium4/Xeon 平 台 处 理 器 ， 其 
APIC 之 间 直 接 采 用 前 端 访 存 网 络 互 连 ， 不 再 另 设 独 
立 总 线 。 所 有 的 LAPIC 会 定期 将 自己 的 PPR 值 通告 
给 可 能 发 出 中 断 消息 的 器 件 (PCIE 控 制 器 ， 或 者 连 
接着 IO APIC 的 QPI 控 制 器 ) ， 后 者 保存 每 个 LAPIC 
的 PPR 值 ， 并 将 Lowest Prioirty 模 式 的 中 断 消息 转发 给 
PPR 值 最 小 的 LAPIC; 如 果 PPR 值 都 相同 (比如 运行 
Linux 时 ) ， 则 随机 选择 一 个 ， 这 样 就 可 以 保证 无 论 
如 何 也 能 够 有 均衡 效果 。 

明白 了 底层 硬件 的 原理 ， 我 们 再 来 看 看 Linux 
内 核 是 如 何 利用 这 些 机 制 来 实现 中 断 Affinity 和 Load 
Balance 的 。 毫 无 疑问 ， 如 果 想 让 某 个 中 断 只 被 指定 
范围 的 某 几 个 核心 中 的 某 个 处 理 ， 那 么 该 中 断 对 应 
的 MSIMSI-X 或 者 IO APIC 中 的 IO Redirection Table 
中 的 条 目 中 的 Delivery Mode 字 段 必 须 被 设置 为 Lowest 
Priority 模 式 ， 而 且 Destination Mode 必 须 被 设置 为 
Logical 模 式 。 而 且 还 必须 将 LAPIC 中 的 DFR 设 置 为 Flat 
或 者 Cluster 模 式 〈Linux 内 核 多 使 用 Flat 模 式 ，APIC 的 
升级 版 x<APIC/2xAPIC 的 Logic ID 和 Destination ID 字段 已 
经 从 8 位 升级 到 了 32 位 ， 可 以 均 摊 到 32 个 核心 上 ) ， 而 
中 断 消息 中 的 Destination ID 也 跟着 LAPIC 的 DFR 所 被 配 
置 的 模式 来 赋值 。 这 种 Affinity 模 式 依靠 底层 硬件 随机 
选择 一 个 目标 的 方式 来 均衡 ， 其 有 效 均 衡 范围 会 被 限 
定 在 8 个 核心 (APIC) 或 者 32 个 核心 (x/2x АРС) 。 

另外 一 种 方式 为 手动 均衡 ， 也 就 是 让 某 个 中 断 向 
量 只 发 往 一 个 固定 的 LAPIC， 分 别针 对 系统 内 所 有 中 断 
向 量 挨个 设置 。 此 时 中 断 消息 中 的 Destination ID 必须 为 
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Physical 模 式 ，Delivery Mode 必 须 为 Fixed 模 式 ， 而 且 要 精 
心 为 每 一 个 中 断 向 量 设置 不 同 的 Destination ID， 当 然 也 
可 以 相同 ， 如 果 核 心 数量 小 于 中 断 向 量 数量 的 话 。 

Linux 从 2.4 版 本 内 核 开始 ， 在 用 户 空 间 提供 了 一 
种 设置 任意 中 断 向 量 的 Affinity 的 方式 。 每 个 中 断 向 量 
会 有 一 个 对 应 的 目录 路 径 : /proc/irq/ 中 断 号 /， 该 路 径 
下 有 一 个 名 为 smp_affinity 的 文件 ， 向 其 中 写 入 不 同 的 
值 就 可 以 改变 Affinity 策 略 。 该 值 长 度 为 32 位 ， 每 个 位 
为 1 则 表示 该 中 断 可 以 被 发 送 到 该 CPU。 该 值 显示 和 
操作 的 时 候 使 用 十 六 进 制 操作 ， 比 如 0x0000000F 表 示 
将 中 断 均 衡 到 CPU0~3 上 ，0x000000A0 表 示 中 断 均衡 
到 CPU5 和 7 上 。 如 果 系 统 中 有 超过 32 个 CPU 核心 ， 则 
smp_affinity 文 件 中 将 会 保存 多 个 值 ， 用 逗号 隔 开 。 这 
个 过 程 如 图 10-173 所 示 。 

/proc 目 录 下 面 的 文件 都 比较 特殊 ， 当 向 其 中 写 
入 或 者 读 出 数据 时 ， 应 用 程序 采用 的 依然 是 read()/ 
write() 这 类 系统 调用 ， 但 是 这 个 调用 进入 内 核 之 后 ， 
内 核 会 判断 要 读 写 的 文件 路 径 是 否 为 /proc 开 头 ， 如 果 
是 则 转 为 调用 proc_file read(/proc file write it, 
该 函数 可 并 不 会 去 硬盘 上 找 这 个 文件 ， 而 是 转 为 执 
行 其 他 动作 ， 具 体 动作 与 对 应 文件 名 有 关 。 比 如 上 
述 对 smp_affinity 文 件 的 写 入 过 程 的 调用 链 为 ， write() 
-> sys write() -> vfs write() -> proc file write) -> па_ 
affinity proc write() -> irq set affinity() ， 该 函数 内 
部 会 判断 对 应 的 irq 号 是 通过 哪个 器 件 注册 上 来 的 ， 
比如 是 PCIE 控 制 器 (MSI/MSI-X 方 式 ) 还 是 通过 IO 
APIC， 然 后 去 调用 不 同 的 下 游 函数 ， 分 别 为 msi_set_ 
affinity() 和 ioapic_set_affinity()。 这 个 过 程 如 图 10-174 
所 示 。 其 中 要 注意 的 一 点 是 ， 由 于 不 同 CPU 核 心 各 自 
有 各 自 的 中 断 向 量 表 ， 所 以 需要 将 要 均衡 的 中 断 向 
量 撒播 到 均衡 范围 内 的 CPU 的 向 量 表 中 去 ， 在 每 个 向 
量 表 的 对 应 位 置 都 给 占据 上 ， 这 样 任何 一 个 CPU 接 收 
到 该 向 量 都 可 以 执行 到 对 应 的 中 断 服务 程序 。 这 个 
撒播 过 程 被 封装 在 _ioapic_set_affiniry( > assign іта. 
vector0 函 数 中 。 

但 是 ， 在 msi_set_affinity0 和 ioapic_set_affinityO 
函数 中 似乎 并 没有 看 到 改变 Delivery Mode 为 Lowest 
Priority 的 步骤 。 其 实 ， 这 个 步骤 早 在 内 核 初 始 化 的 时 
候 ， 已 经 做 了 全 局 定义 ， 如 图 左上 和 角 所 示 ， 在 struct 
apic 中 保存 了 对 应 的 参数 ， 内 核 在 初始 化 对 应 的 寄存 
器 时 ， 会 从 这 里 拿 参 数 。 内 核 提 供 了 多 套 不 同 的 struct 
apic 参 数 表 ， 有 struct apic apic_default / apic flat / арїс_ 
noop / apic summit / apic x2apic cluster / аріс х2аріс | 
uv х / аріс physflat / apic_numaq。 在 编译 内 核 时 ， 需 
要 选择 不 同 的 模式 ， 内 核 就 会 以 不 同 的 参数 套装 来 
运行 。 其 中 ， 前 5$ 套 参数 中 都 使 用 了 Logical ID 和 dest_ 
lowestPrio 参 数 。 而 后 3 套 参 数 在 这 方面 的 配置 参数 
略 有 不 同 ， 比 如 apic_physflat 这 个 参数 套装 里 使 用 了 
dest Fixed 以 及 Physical ID 参数 ， 那 么 ， 在 选择 了 这 套 
参数 的 系统 中 ， 就 无 法 将 一 个 中 断 均衡 到 多 个 CPU 上 
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root:- # cat Tod interrupts 


CPUO e CPU2 CPU3 

0: 1520081 52 0 0 IO-APIC-edge timer 

8: | о 0 IO-APIC-edge rtc 

10: 0 0 0 IO-APIC-level оһсі hcd:usb4, ohci hcd:usb5, ehci hcd:usb6 
14: 4626398 0 0 0 ІО-АРІС-ейде ideO 

90: 303985 0 0 0 PCI-MSI eth2 

98: 39987912 0 0 0 PCI-MSI eth1 
106: 303975 0 0 0 IO-APIC-level eth3 
114: 2211394 0 0 0 PCI-MSI ето 
122: 1900093 0 0 0 PCI-MSI eth4 
130: 110914 0 0 0 PCI-MSI-X ib mthca (comp) 
138: 1 0 0 0 PCI-MSI-X ib mthca (async) 
146: 56128 0 0 0 PCI-MSI-X ib mthca (cmd) 
154: 110894 0 0 0 PCI-MSI-X ib mthca (comp) 
162: W 0 0 0 PCI-MSI-X ib mthca (async) 
170: 56095 0 0 0 PCI-MSI-X ib mthca (cmd) 
185: 700570 0 0 0  !O-APIC-level — aacraid 
NMI: 0 0 0 0 
LOC: 151998792 151999359 151999180 151999208 
ERR: 0 


MIS: 0 


root:~ # echo f > /proc/irq/90/smp affinity 
root:~ # echo 4 > /proc/irq/98/smp affinity 


将 90 号 中 断 绑 定 到 CPUO/1/2/3， 将 98 号 中 断 绑 定 到 CPU2 


root:^ # cat /proc/interrupts 
CPUO CPU1 CPU2 CPU3 
0: 152426670 0 0 O  IO-APIC-edge timer 
8: 1 0 0 0  IO-APIC-edge rtc 
10: 0 0 0 O 10-АРС-Јеџе! ohci hcd:usb4, ohci hcd:usb5, ehci hcd:usb6 
14: 1825316 0 0 ІО-АРІС-едде ide0 
90: 304822 24795 24394 24563 РСІ-М5І eth2 
98: 39988380 0 383966 0  PCI-MSI eth1 
106: 304812 0 0 о 10- AC level eth3 
114: 2283757 0 0 0 etho 
122: 1905352 0 0 0 ict M eth4 
130: 110914 0 0 О  PCI-MSI-X ib_mthca (comp) 
138: 1 0 0 0  PCHMSI-X ib mthca (async) 
146: 56128 0 0 0  PCIMSI-X ib_mthca (cmd) 
154: 110894 0 0 0 PCI-MSI-X ib_mthca (comp) 
162: 1 0 0 0 PCI-MSI-X ib_mthca (async) 
170: 56095 0 0 0  PCIMSI-X ib_mthca (cmd) 
1005/0 0 0 O  IO-APIC-level aacraid 
0 0 0 


Loc: 15241 та 152417841 152417662 152417780 
ERR: 
MIS: 0 


图 10-173 ”修改 smp_affinity 的 值 改变 中 断 均 衡 范 围 


执行 (这 里 指 的 是 按照 优先 级 随机 选择 一 个 执行 ， 注 
意 ， 并 不 是 说 该 中 断 被 多 个 核心 同时 执行 ) ， 但 是 依 


10.6.2 中断 相关 数据 结构 


然 可 以 手动 一 对 一 绑 定 ， 将 不 同 的 中 断 绑 定 到 不 同 的 
单个 核心 上 执行 。 这 一 点 也 是 很 多 运 维 人 员 在 设置 了 
Affinity 之 后 却 发 现 无 效 的 原因 之 一 。 

为 此 ， 有 人 开发 了 irqbalanced 这 个 程序 ， 该 程序 
运行 在 用 户 空间 ， 可 以 自动 帮助 用 户 来 均衡 中 断 ， 它 
定期 地 检查 当前 系统 中 断 是 否 均衡 ， 然 后 根据 一 定 的 
算法 ， 来 绑 定 不 同 中 断 到 不 同 核心 ， 可 以 一 对 多 绑 定 
(struct apic 里 必须 选择 使 用 dest_lowestPrio 参 数 ) ， 
也 可 以 一 对 一 绑 定 〈dest_lowestPrio 或 者 Physical 方 式 
都 可 以 ) 。 当 然 ， 对 于 专业 工程 师 来 讲 ， 更 愿意 采用 
手动 绑 定 /均衡 。 

如 图 10-175 所 示 为 开启 和 关闭 irqbalanced 程 序 前 
后 的 中 断 均衡 情况 差别 示意 图 。 图 中 最 右 侧 所 示 为 其 
他 一 些 类 型 的 中 断 的 代号 示意 图 。 如 图 10-176 所 示 为 
不 同 寄存 器 参数 组 合 下 的 行为 和 均衡 方式 一 


CPU 核心 是 如 何 收 到 中 断 的 ， 上 文中 已 经 给 出 了 
描述 。 本 节 我 们 需要 了 解 一 下 CPU 接收 到 中 断 之 后 都 
发 生 了 什么 了 。 前 文中 多 次 提 到 过 ，CPU 拿 到 中 断 向 
量 之 后 ， 就 从 中 断 向 量 表 中 对 应 序号 条 目 找 出 保存 
在 其 中 的 地 址 ， 从 这 个 地 址 开始 执行 代码 。 不 同 的 
中 断 源 都 需要 产生 中 断 向 量 ， 比 如 上 文中 介绍 的 IO 
APIC、LAPIC， 操 作 系统 内 核 初始 化 的 时 候 需 要 将 对 
应 的 向 量 分 别 配 置 到 它们 的 IO Redirection Table 以 及 
LVT 中 ， 并 将 对 应 向 量 的 中 断 服务 程序 入 口 地址 植 入 
中 断 向 量 表 中 对 应 的 条 目 中 ， 最 后 还 得 把 中 断 向 量 表 
的 基地 址 写 入 CPU 内 部 专门 的 寄存 器 中 ，CPU 就 可 以 
РТ. 

软件 也 可 以 主动 产生 中 断 ， 指 令 操 作 数 就 是 中 断 
向 量 ， 比 如 int 80h 指 令 直 接 就 命令 CPU 到 中 断 向 量 表 
的 第 80h (128) 条 中 读 出 入 口 地 址 执行 ， 这 也 就 是 用 
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有 效 组 合 ? 


Delivery Mode 
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图 10-176 各 种 参数 组 合 下 的 行为 和 均衡 方式 一 览 


于 系统 调用 的 专门 中 断 号 ，80h 这 个 向 量 是 固定 的 。 

CPU 运行 时 也 可 能 产生 各 种 异常 ， 比 如 检测 到 除 
法 指令 操作 的 除数 是 0(， 就 产生 Divide Error〔 除 0 异 
常 ) ， 此 时 CPU 会 从 中 断 向 量 表 的 第 0 项 中 读 出 入 口 
地 址 执行 ， 操 作 系统 内 核 必须 保证 将 用 于 处 理 除 0 异 
常 的 中 断 服务 程序 放置 在 这 个 入 口上 。 此 外 ， 还 有 
很 多 Intel CPU 规定 的 固定 中 断 号 ， 比 如 著名 的 缺 页 
异常 的 向 量 为 0Eh (14) ， 无 效 TSS 表 异常 的 向 量 为 
0Ah (10) 等 。Intel 规 定 ，0~31 号 向 量 保 留 作为 上 
述 这 些 固定 功能 向 量 ， 包 括 各 种 异常 、NMI (向量 号 
02h) 、Debug/ 断 点 中 断 等 使 用 ， 不 允许 将 这 些 向 量 
分 配给 外 部 IO 设备 ， 因 为 CPU 一 旦 检测 到 对 应 中 断 发 
生 ， 会 默认 使 用 对 应 的 中 断 向 量 作 跳 转 入 口 ， 换 句 话 
说 ， 这 些 向 量 是 被 写 死 在 CPU 内 部 硬件 中 的 ， 而 不 是 
去 LAPIC 的 ISR 寄 存 器 中 拿 到 的 。 那 如 果 写 一 段 代 码 
强行 把 0Eh 向 量 写 入 到 IO APIC 中 对 应 1 号 中 断 线 的 
T/O Redirection Table 表 中 ， 记 图 让 1 号 中 断 线 的 中 断 信 
号 引发 CPU 去 执行 0Eh 向 量 中 的 入 口 代码 ， 是 否 可 以 
№? 不 可 以 ， 因 为 JO APIC 内 部 电路 会 检测 到 ， 不 允 
许 被 配置 0 一 31 号 中 断 向 量 。 

而 32 一 255 的 向 量 号 ， 操 作 系统 可 以 任意 分 配 。 这 
个 规则 早 在 8086 和 DOS 时 代 就 已 经 定型 了 。 如 图 10-177 
所 示 ， 左 侧 为 那个 时 代 的 规则 ， 当 时 的 CPU 并 没有 
现在 功能 这 么 强大 ， 只 保留 了 5 个 与 硬件 异常 /调试 / 
NMI 相 关 的 中 断 向 量 ， 后 面 的 27 个 其 实 是 被 DOS 自 己 
给 用 了 ， 比 如 著名 的 int 13h 就 是 用 于 调用 读 写 硬盘 的 
程序 的 ，int 21h 则 是 用 于 调用 操作 键盘 的 程序 的 ， 相 
当 于 有 相当 一 部 分 向 量 被 系统 调用 给 占据 了 。 而 如 今 
的 Linux 系 统 调用 已 经 超过 了 300 项 ， 所 以 后 来 的 处 理 
方式 改 为 让 int 80h 作 为 统一 入 口 ， 将 具体 的 调用 号 压 
入 寄存 器 中 ， 由 系统 调用 总 处 理 程序 通过 读 取 寄 存 器 
找到 调用 号 ， 再 去 调用 相关 程序 。 图 中 右 侧 则 为 现代 
的 规则 。 如 果 在 代码 中 强行 调用 int [前 32 个 向 量 ]， 则 
CPU 电路 会 检查 并 报 异 常 。 

图 中 左 侧 所 示 的 表 被 称 为 IVT (Interrupt Vector 
Table) ， 这 是 早期 实 模式 下 的 产物 ， 其 必须 被 放置 
到 物理 内 存 的 0 号 地 址 上 ， 不 能 放 其 他 地 方 ， 当 时 的 
CPU 内 部 也 是 写 死 的， 只 要 收 到 外 部 或 者 内 部 中 断 ， 
一 律 从 0 号 地 址 去 找 IVT。 同 时 ， 由 于 没有 保护 ，IVT 
可 以 被 用 户 态 程序 任意 改动 ， 而 且 用 户 态 程序 可 以 用 
int n 指 令 肆 意 调用 任何 一 个 中 断 服务 程序 ， 比 如 用 户 


态 任务 随便 调用 一 个 缺 页 异常 处 理 程序 逗 内 核 玩 一 
玩 ， 这 显然 是 不 合理 的 。 这 种 没有 保护 的 IVT 带 来 了 
很 大 的 风险 。 所 以 ， 在 具备 保护 模式 功能 的 CPU 中 ， 
会 给 中 断 向 量 表 中 对 应 的 条 目 加 上 相应 的 权限 以 及 检 
查 机 制 ， 可 以 针对 不 同 的 中 断 向 量 给 予 不 同 的 权 级 ， 
从 而 提供 更 多 的 层次 感 和 灵活 性 ， 同 时 OS 内 核 也 会 将 
整个 向 量 表 搬 移 到 内 核 地 址 区 保护 起 来 ， 让 用 户 态 程 
序 碰 不 到 。 这 个 经 过 改造 的 IVT 被 称 为 IDT。 


10.6.2.1 中 断 描述 符 表 IDT 


对 于 现代 的 Intel CPU， 当 运行 在 保护 模式 下 时 ， 
其 针对 中 断 向 量 表 的 处 理 方式 有 很 大 变化 。 首 先 IVT 
改名 为 IDT (Interrupt Descriptor Table) ，IDT 仍 然 有 
256 项 。 其 次 ，CPU 拿 到 向 量 号 (从 外 部 、int 指 令 中 
或 者 前 32 个 默认 向 量 号 ) 之 后 仍然 读 取 IDT 中 对 应 序 
号 的 条 目 ， 但 是 读 出 来 的 是 一 个 Gate〈 门 ) ЖА, 
而 不 再 直接 是 中 断 服 务 程 序 的 入 口 地 址 了 。 

门 描述 符 中 给 出 了 中 断 服务 程序 的 Offset， 却 没 
有 给 出 段 基地 址 ，Segment 基 地 址 需要 一 步 步 地 走 完 
一 个 流程 才能 找到 ， 流 程 的 入 口 是 门 描述 符 中 的 段 选 
择 子 ，CPU 拿 着 这 个 选择 子 去 GDT/LDT 中 读 出 对 应 
的 段 描述 符 ， 再 从 段 描述 符 中 找到 中 断 服务 程序 的 段 
基地 址 ， 然 后 再 跳 转 到 对 应 服务 程序 执行 。 上 述 顺序 
总 结 一 下 就 是 : 中断 向 量 ->IDT-> 门 描述 符 -> 段 选择 
子 ->GDT/LDT-> 段 描述 符 -> 段 基地 址 。 


我 们 前 文中 提 到 过 ，Linux 采 用 扁平 分 段 模 
式 ， 本 质 上 相当 于 不 采用 分 段 ， 整 个 虚拟 地 址 空 
间 就 是 单个 大 段 ， 不 过 还 是 象征 性 地 分 为 内 核 段 和 
用 户 段 ， 不 过 这 两 个 段 的 基地 址 都 是 0， 没 有 本 质 
区 别 。 所 以 IDT 中 的 所 有 选择 子 其 实 都 指向 的 是 内 
核 段 。 在 初始 化 IDT 的 时 候 ， 关 键 代码 如 下 : static 
inline void set intr gate(unsigned int n, void *addr) 
{---; set gate(n, САТЕ INTERRUPT, addr, 0, 0, _ 
KERNEL С5):), KERNEL CS 表示 的 就 是 GDT 
中 的 内 核 段 描述 符 了 。 不 过 IDT 中 每 个 条 目的 offset 
字段 可 能 并 不 相同 ， 从 而 可 以 跳 转 到 不 同 的 中 断 服 
务 函 数 上 ， 不 过 也 可 能 相同 ， 因 为 有 些 中 断 使 用 同 
一 个 公共 入 口 ， 再 由 这 个 公共 函数 根据 中 断 向 量 调 
ARA FTF HUE АЖ. 
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这 个 过 程 如 图 10-178 左 侧 所 示 。IDT 相 比 IVT 更 加 灵 
活 的 一 个 地 方 是 ， 其 可 以 被 放置 在 任意 区 域 ， 只 要 将 其 基 
地 址 写 入 IDTR 寄 存 器 告诉 一 下 CPU 便 可 ， 如 图 10-178 中 
间 所 示 。 

门 描述 符 并 不 是 故意 绕 这 个 圈子 的 ， 其 唯一 的 目的 ， 
就 是 为 了 权限 检查 。 首 先 ， 每 个 门 描述 符 中 有 一 个 DPL 
权限 位 《DPL 的 概念 在 10.1.4.2 节 中 介绍 过 ， 这 里 最 好 翻 
回去 回顾 一 下 ) ， 几 乎 所 有 的 IDT 中 的 门 描述 符 的 DPL 都 
为 0， 那 么 你 一 定 可 以 猜 到 的 是 ， 当 用 户 态 程序 代码 给 出 
E int n 时 ， 如 果 IDT 中 第 n 个 门 的 DPL=0， 而 当前 CPL=3， 那 
么 CPU 会 禁止 访问 该 门 并 报 一 个 异常 出 来 。 那 你 一 定 能 够 
联想 到 的 是 :int 80h 为 何 没 问题 ? 那 是 因为 第 128 号 门 的 
i DPL 特 地 被 0S 内 核 填写 为 ?3， 于 是 CPU 就 放行 了 。 也 就 是 
i 
i 


point 


Error codes (И any) and source are model 


dependent 


External interrupt or INT n instruction. 


Any data reference in memory? 
SSEISSE2/SSES floatin 


instructions” 


X87 FPU floating: 


EPT violations 


Error 
Code 
No 
No 
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Gero) 
No 
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faut 
Abort 
Faut 
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š 说 ， 用 户 态 代码 只 能 通过 80h (128) 号 门 来 调用 内 核 态 
i 函数 ， 其 他 都 开 不 了 。 那 么 ， 如 果 当 前 CPL=3， 而 来 了 一 
个 外 部 中 断 怎么 办 ? 比如 NMI 中 断 ， 要 访问 2 号 门 ， 但 是 
门 上 的 DPL=0， 难 道 禁止 访问 不 成 ? 当然 不 。 凡 是 外 部 
中 断 、CPU 运 行 期 间 内 部 异常 等 自动 中 断 ， 一 律 不 检查 权 
限 ， 大 开绿灯 ! 

这 就 是 IDT 中 的 256 道 闸门 的 作用 所 在 。 那 么 ， 为 何 
不 直接 将 对 应 中 断 服务 函数 的 入 口 地 址 直接 放 到 门 描述 符 
PE? 凡是 通过 门 的 ， 直 接 执行 服务 函数 不 就 行 么 ? 为 何 
却 先 放 了 一 个 选择 子 ， 再 去 GDT/LDT 中 找 ? 首先 如 果 把 
段 描述 符 直接 放 在 门 描述 符 里 ， 不 利于 统一 管理 和 初始 化 
等 ， 所 以 把 所 有 的 段 描 述 符 统一 都 放 在 GDT/LDT 中 ， 统 
一 用 选择 子 来 选 。 然 后 ， 为 什么 要 把 中 断 服务 函数 入 口 圭 
装 到 段 描 述 符 中 ? 其 实 还 是 为 了 权限 检查 ， 因 为 段 描述 符 
本 身 也 有 DPL。 也 就 是 说 ， 通 过 了 IDT 这 第 一 道 闸 门 ， 还 
需要 经 过 段 描述 符 第 二 道 闸门 。 

第 二 道 闸 门 的 检查 方式 与 第 一 道 闸 门 刚好 相反 ， 高 权 
限 的 代码 不 允许 调用 低 权限 的 代码 ， 也 就 是 只 有 当前 CPL 
值 = 被 读 出 的 段 描 述 符 DPL， 才 会 放行 ， 否 则 异常 〈 外 部 
š 中 断 和 内 部 自动 中 断 不 检查 ， 两 道 闸门 形同虚设 ) 。 也 就 
Ё 是 说 ， 两 道 闸门 最 终 通过 的 条 件 是 : 门 DPL 值 = CPL 值 
" > 段 描述 符 DPL 值 。 

你 可 能 会 分 析出 这 样 做 的 原因 : 如 果 内 核 代码 可 以 任 
а 意 调 用 用 户 态 代码 ， 岂 不 是 允许 用 户 态 代码 胡作非为 了 ， 
= 因为 内 核 态 代码 运行 时 ， 其 CPL=0， 用 户 态 代 码 可 能 趁机 
拿 着 这 个 令 牌 向 内 核 区 植 入 恶意 程序 ， 或 者 修改 任意 内 容 
已 达到 目的 。 这 个 理由 看 上 去 很 正确 ， 但 却 并 不 会 发 生 ， 
因为 前 文中 就 介绍 过 ，int 指 令 执行 之 后 ，CPU 拿 到 段 描述 
符 之 后 ， 会 将 其 读 出 并 写 入 CS 寄存 器 旁 的 描述 符 副本 寄 
存 器 ， 导 致 当前 的 CPL= 被 读 出 的 段 描述 符 中 的 DPL， 也 
就 是 3， 被 调用 的 用 户 态 代码 并 无 法 访问 内 核 区 域 。 

其 实 ， 真 正 原因 是 ， 这 样 做 理论 上 可 以 ， 但 是 没有 
实际 意义 ， 内 核 任何 时 候 都 不 需要 调用 用 户 态 代 码 来 做 事 
情 ， 这 就 像 你 去 银行 柜台 存款 ， 操 作 员 并 不 会 跟 你 说 : 
“现在 请 求 你 帮 有 我 去 外 面 买 个 东西 回来 ”。 不 过 ， 操 作 员 
可 以 跟 你 说 “请 填 一 下 这 个 表 ， 填 完了 给 我 ”， 不 过 这 个 
接口 方式 完全 可 以 不 通过 int 来 处 理 ， 而 是 先 iret 返 回 到 用 
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图 10-177 8086/DOS 时 代 以 及 现代 的 中 断 向 量 表 
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户 态 ， 用 户 填 完 表 之 后 再 次 int 到 内 核 态 。‏ ج کے اڪن ڪڪ ن ڪڪ 

而 且 ， 中 断 服务 程序 被 注册 成 一 个 用 户 态 权限 
的 程序 ， 也 没有 意义 ， 直 接 内 核 态 就 行 。 如 果 用 户 
态 int 到 内 核 态 ， 内 核 态 再 int 到 用 户 态 ， 很 低 效 ，int 
指令 要 上 下 文 切 换 ， 很 耗 时 间 。 

再 者 ， 就 算 这 样 去 做 ， 这 段 被 注册 的 程序 结尾 
必须 执行 的 是 iret 而 不 能 是 ret 指 令 ， 因 为 中 断 返 回 之 
后 需要 依靠 iret 指 令 做 多 个 寄存 器 的 弹 栈 操作 ， 而 不 
是 像 ret 指 令 那 样 仅 弹 栈 一 个 返回 地 址 到 IP 寄 存 器 ， 
否则 会 出 错 ， 这 就 增加 了 该 用 户 态 代码 的 复杂 度 ， 
比如 需要 用 汇编 语言 直接 要 求 使 用 iret 指 令 ， 徒 增 不 
必要 的 麻烦 。 

这 两 道 闸 门 的 检查 规则 如 图 10-179 所 示 。 不 过 ， 
Ring0 的 代码 到 时 可 以 通过 int n 来 任意 调用 其 他 Ring0 的 
s s 5 代码 ， 有 一 些 Windows 9x 时 代 的 设备 驱动 就 这 样 用 过 。 
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Interrupt-gate/trap-gate descriptor 


10-179 ”两 道 闸门 检查 int 指 令 


再 来 看 一 下 图 10-178 右 侧 。 在 IDT 中 共 可 以 有 
三 种 门类 型 。 其 中 ， 中 断 门 和 陷阱 门 的 区 别 在 于 前 
者 进入 后 CPU 会 自动 关闭 中 断 〈 清 下 标志 位 ) ， 而 
后 者 不 会 。 其 次 还 有 一 类 任务 门 ， 任 务 门 中 的 选择 
子 选 的 并 不 是 代码 段 描 述 符 ， 而 是 一 个 TSS 描 述 符 
( 见 图 10-49) ，CPU 一 旦 检测 到 IDT/GDT 中 的 条 
目 是 任务 门 ， 则 期 待 读 出 一 个 TSS 描 述 符 来 ， 然 后 
利用 读 出 的 TSS 来 按照 图 10-55 所 示 的 步骤 执行 任 
务 切换 ， 所 以 用 户 态 程序 可 以 使 用 Call/Jmp CS: 
Н IP 或 者 Int n 的 指令 直接 触发 一 次 任务 切换 。 而 且 ， 
E CPU 并 不 会 对 TSS 描 述 符 中 的 DPL 进 行 权限 检查 ， 
所 以 用 户 态 可 以 直接 使 用 任务 门 来 将 当前 任务 切换 
到 一 个 用 户 态 或 者 内 核 态 任务 。 不 过 ， 由 于 Linux 
内 核 目前 不 采用 Intel 提 供 的 这 种 全 硬 切 换 的 方式 ， 
所 以 任务 门 在 Linux 下 是 没 用 的 。 如 图 10-180 所 示 
为 各 种 门 的 规则 总 结 。 

另外 还 有 一 类 调用 门 ， 该 门 不 能 使 用 Int n 指 令 
进入 ， 因 为 它 不 在 IDT 中 ， 只 能 在 GDT/LDT 中 ,也 
只 能 通过 Call 或 者 JImp 指 令 来 进入 ， 规 则 同样 是 门 
DPL 值 >=CPL 值 = 段 描述 符 DPL 值 时 才能 通过 。 调 
用 门 可 被 用 来 在 用 户 态 通过 Call/Jmp 方 式 来 调用 内 
核 态 代码 ， 当 门 DPL 值 >CPL 值 = 段 描述 符 DPL 时 ， 
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L3 
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可 能 的 DPL 值 是 否 自动 清 IF 位 从 GDT/LDT 中 选 出 何 种 描述 符 


Interrupt Gate lor 外 部 中 断 / 内 部 自动 中 断 / nt 指令 0/3 是 pm 
Trap Gate шт | | ен пева mae 0/3 | * m 
Call Gate GDT / LOT | Call 指 令 / Jmp 指 令 0/3 | 8 段 描述 符 
Task Gate DILE TEE 0/3 | = Төте 


图 10-180 不 同门 描述 符 的 


由 于 是 同 级 调用 ， 该 调用 不 产生 栈 切 换 ， 如 果 门 DPL 
值 =CPL 值 > 段 描 述 符 DPL 时 ， 产 生 栈 切 换 ，CPU 会 
自主 压 入 老 五 样 寄 存 器 入 栈 。 

注意 ， 门 上 的 DPL 权 限 ， 可 以 被 运行 在 Ring0 权 
限 的 代码 任意 指定 ， 至 于 使 用 哪 一 种 门 ， 取 决 于 具体 
的 场景 需求 ， 比 如 对 于 外 部 中 断 ， 而 且 不 想 被 自动 关 
闭 中 断 的 话 ， 可 以 使 用 陷阱 门 。 如 果 想 让 外 部 中 断 到 
来 时 直接 切换 到 一 个 独立 的 任务 来 响应 该 中 断 的 话 ， 
就 需要 使 用 任务 门 〈 但 是 Linux 下 任务 切换 完全 另 立 
门户 ， 所 以 该 场景 无 效 ) 。 


Еж» 

Ring0 代 码 也 可 以 向 IDT 中 的 条 目 加 入 任意 的 
门 描述 符 ， 并 关联 任意 的 内 核 函数 代码 入 口 ， 然 
后 在 用 户 态 采 用 Call 指 令 就 可 以 任意 调用 。 这 就 
给 很 多 黑客 提供 了 方便 。 不 过 在 像 Windows 这 样 
的 不 开源 商业 操作 系统 中 ， 为 了 安全 性 考虑 ， 在 
Windows 7 以 后 版 本 ， 内 核 会 在 后 台 扫描 IDT， 一 
旦 发 现存 在 第 三 方程 序 私自 植 入 的 IDT 条 目 ， 则 
宕 机 。 所 以 黑客 们 只 能 从 正规 的 系统 调用 入 口 来 
调用 内 核 代码 了 。 


10.6.2.2 irq_desc[ ] 和 vector_irq[] 


有 时 候 ， 在 某 个 中 断 下 游 需 要 做 多 件 事情 ， 比 如 
某 内 核 模块 需要 在 每 次 时 钟 中 断 之 后 做 对 应 的 事情 ， 
它 就 需要 将 一 个 入 口 函数 注册 到 时 钟 中 断 下 游 的 调 
用 链 中 。 显 然 ， 需 要 有 某 个 表格 来 登记 所 有 注册 在 某 
个 中 断 向 量 下 游 的 函数 ， 这 样 ， 中 断 入 口 程序 就 会 查 
表 然 后 依次 调用 这 些 函数 。 其 次 ， 每 个 中 断 向 量 的 中 
断 源 不 同 ， 比 如 有 些 是 从 LAPIC 内 部 集成 的 器 件 发 出 
的 ， 有 些 则 是 从 IO APIC 后 面 的 设备 发 出 ， 有 些 则 是 从 
PCIE Host 主 控制 器 后 面 的 PCIE 设 备 发 出 ， 配 置 这 些 中 
断 控 制 器 需要 不 同 的 方式 ， 比 如 前 文 所 述 的 设置 中 断 
均衡 ， 如 果 某 个 向 量 源 于 IO APIC， 那 就 得 调用 ioapic_ 
set_affinity0 函 数 ， 如 果 是 从 PCIE 控 制 器 以 MS 方式 的 中 
断 源 ， 那 就 得 调用 msi_set_affinity0， 这 两 个 函数 前 文中 
也 介绍 过 ， 它 们 的 实现 不 同 。 所 以 ， 也 需要 将 当前 中 
断 向 量 对 应 的 底层 各 种 操作 的 函数 注册 到 这 个 表 中 。 

显然 ， 这 个 表 应 该 有 多 份 ， 每 个 中 断 向 量 对 应 
一 份 ， 每 份 表格 的 格式 是 一 样 的， 表格 中 划分 更 多 子 
表格 来 分 门 别 类 记录 各 种 相关 内 容 。 这 多 份 表格 形成 


区 别 一 览 


一 个 数组 ， 数 组 的 编号 就 是 中 断 向 量 号 。 这 就 是 irq_ 
desc[ ] 数 组 ， 数 组 中 每 一 项 都 是 一 个 struct irq desc, 
描述 了 该 中 断 向 量 的 所 有 信息 。 如 图 10-181 所 示 为 
irq_desc 结 构 体 以 及 下 游 指 向 关系 。 
irq_desc 中 有 三 个 最 为 关键 的 信息 ， 分 别 为 :记录 
了 该 中 断 向 量 相关 的 底层 硬件 相关 信息 的 struct irq_data 
data， 中 断 向 量 的 总 入 口 回 调 函数 handle_irq 的 指针 ， 
真正 的 中 断 处 理 函 数 的 包装 体 struct irqaction action. 


所 谓 回调 函 教 (Call Back) ， 是 指 把 一 个 函数 
指针 注册 到 一 个 表格 中 对 应 名 称 的 项 目 上 ， 比 如 将 
myfunc() 指 针 写 入 到 struct table style tablel.yourfunc 
字段 ， 那 么 上 游 函 数 只 需要 用 table1->yourfunc( 参 
数 ) 即 可 调用 到 myfunc()。 这 不 是 多 此 一 举 么 ? 为 
何不 直接 调用 myfunc()? 为 了 灵活 性 ， 如 果 要 更 
换 底层 的 零件 ， 不 需要 改动 上 游 函 数 的 代码 ， 比 
如 将 hisfunc() 注 册 到 tablel 中 ， 上 游 代码 依然 是 调 
用 table1->yourfunc( 参 数 )， 但 此 时 实际 上 调用 的 是 
hisfunc()。 假 设 系 统 可 能 会 根据 不 同情 况 采 取 多 套 
不 同 的 下 游 函 数 套装 ， 那 么 此 时 就 最 好 采用 回调 函 
数 方式 来 松 耦 合 实现 插 接 件 。 


其 中 ，irq_data 中 又 包含 关键 的 int irq (irq 号 ) 
以 及 struct irq_chip chip〈 用 于 记录 该 中 断 向 量 对 
应 的 底层 中 断 控制 器 的 操作 回调 函数 ， 比 如 屏蔽 中 
断 、 使 能 /禁止 、 应 答 等 函数 ) ， 在 中 断 处 理 时 会 操 
作 中 断 控制 器 ， 调 用 的 就 是 对 应 struct irq_chip 中 的 
回调 函数 ， 比 如 图 中 右 下 角 所 示 的 __read_mostly- 
>mask_ioapic_irq()。struct irq_chip 中 列 出 的 回调 函 
数 并 不 需要 全 都 实现 ， 比 如 有 些 中 断 控制 器 无 法 提 
供 中 断 均衡 功能 ， 那 就 不 需要 实现 irq_set_affinity 这 
一 项 ， 届 时 代码 中 会 判断 该 项 是 否 注册 为 空 ， 从 而 
决定 是 否 调用 。 

irq_desc 中 的 handle_irq 是 该 中 断 向 量 的 处 理 入 口 
函数 (属于 回调 函数 ) 之 一 。 实 际 上 最 顶层 的 入 口 
路 径 是 GDT 拿 出 的 指针 > common interrupt > do_IRQO 
> handle irq() > generic handle па desc() > ша desc[x]- 
»handle irq0。 该 函数 为 初始 化 中 断 控制 器 时 注册 的 
调 函数 ， 不 同 中 断 控 制 器 可 能 对 应 着 不 同 的 回调 函数 。 

handle_irq 回 调 函数 内 部 会 调用 handle_ 
irq event() > handle irq event percpu() > 


action->handler() 来 执行 真正 的 中 断 服 务 函数 。 
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中 断 服 务 函数 会 被 设备 驱动 程序 初始 化 时 调用 
request_irq() 注 册 到 action 结 构 体 中 ， 每 个 action 
结构 体内 部 都 有 一 个 next 指 针 指向 下 一 个 action 
结构 体 ， 所 以 如 果 针 对 某 个 中 断 有 多 个 下 游 函 
数 要 执行 ， 就 需要 将 这 些 函数 封装 到 action 结 构 
体 中 然后 挨个 挂 接 到 上 一 个 action.next 指 针 上 。 

irq_desc[ ] 只 在 发 生 外 部 中 断 时 被 读 取 和 使 用 ， 

当 发 生 内 部 自动 中 断 〈 比 如 各 种 异常 ) 以 及 内 部 主动 
中 断 〈 比 如 执行 了 int n 指 令 时 ) 时 ， 对 应 的 中 断 服务 
函数 并 不 会 被 注册 到 irq_desc[ ] 中 ， 而 是 单独 注册 了 
对 应 的 入 口 〈 下 一 节 中 会 详 述 ) 。 实 际 上 ，“irq” 
这 个 词 从 一 开始 也 就 泛 指 外 部 硬件 产生 的 中 断 。 但 
是 ， 由 于 IDT 中 前 32 个 被 保留 作 内 部 自动 中 断 所 用 ， 
0x80 (128) 号 向 量 则 被 系统 调用 特殊 中 断 所 用 〈 系 
统 调用 入 口 并 不 使 用 irq_desc 中 的 信息 ) ， 但 是 irq_ 
desc[ ] 却 是 从 0 开始 的 ， 所 以 Vector 号 与 irq_desc[ ] 号 

(或 者 俗称 irq 号 ) 无 法 一 一 对 应 ， 所 以 需要 一 个 数据 
结构 来 存放 Vector m 与 irq_desc[n] 之 间 的 对 应 关系 。 
vector irq[ ] 数 组 应 运 而 生 。 该 数组 的 序号 (下 标 ) 值 
为 Vector 值 ， 而 标号 对 应 的 元 素 项 目的 值 为 irq 号 。 比 
如 ，vector_irq[32]=0，vector_irq[33]=1， 以 此 类 推 ， 
vector_irq[128] 留 空 〈 值 设 为 -1) 。 这 样 ， 上 层 软 件 只 
需要 关注 irqd 号 (irq_desc[ ] 的 标号 ) ， 而 不 用 再 去 关 
心底 层 的 Vector 值 ， 所 以 图 10-173 和 图 10-175 中 最 左 侧 
一 列 的 号 码 其 实 是 irq 号 ， 而 不 是 Vector 号 。 

在 irqinit.c 源 文件 中 ，vector_irq[ ] 会 全 部 被 初始 
化 为 -1 (表示 该 项 为 空 ) ， 代 码 : DEFINE_PER_ 
CPU(vector irq t, vector irq) = ( [0 ... NR VECTORS 
-1]=-1,}. 

如 图 10-182 所 示 ，vector irq[ ] 是 per cpu 数 据 结 构 ， 
每 个 CPU 都 有 各 自 的 那 份 ， 中 断 向 量 被 发 送 到 了 哪个 
CPU 执行 ， 其 上 的 中 断 入 口 程 序 就 从 该 CPU 对 应 的 那 
个 vector irq[ ] 中 找到 Vector 对 应 的 irq 号 ， 并 读 取 对 应 
的 irq_desc{ }。 所 以 ， 不 同 CPU 的 vector_irq[ ] 的 同一 个 
Vector 号 可 能 对 应 着 相同 或 者 不 同 的 irq 号 。allocated_ 
irqs[n] 和 irq_desc[n] 中 的 n 取 值 随 平台 参数 不 同 而 不 同 ， 
代码 中 采用 NR_IRQS 宏 来 表示 其 数值 ， 典 型 参数 套装 
下 其 值 为 2304。 

同时 还 设置 了 一 个 used_vectors[ ] 数 组 (充当 位 map 
类 似 作 用 ) ， 凡 是 那些 系统 保留 的 向 量 ， 以 及 一 些 特殊 
的 系统 级 中 断 服 务 向 量 (System Vector， 比 如 LAPIC 中 的 
Local Timer 向 量 ) 会 在 该 数组 中 被 置 !， 这 样 可 以 保证 在 
分 配 向 量 时 越过 这 些 特 殊 向 量 值 。 但 是 注意 ， 该 位 图 并 
不 记录 其 他 非 保留 / 非 系 统 向 量 CExternal Vector) 的 使 用 
情况 ， 后 者 可 以 根据 vector irq[ ] 中 对 应 项 目 是 否 为 -1 来 
判断 ， 为 -1 则 尚未 分 配 ， 可 用 。 

如 图 10-182 所 示 的 5 个 关键 数据 结构 之 间 的 关系 示 
意图 中 的 例子 是 任意 Vector 号 可 以 映射 到 任意 IRQ 号 ， 
但 是 实际 中 ，Vector 与 IRQ 之 间 基 本 是 顺序 映射 的 ， 比 
如 IRQ 号 =Vector 号 - 偏 移 量 。 
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提示 > 

系统 保留 的 前 32 个 中 断 向 量 ， 以 及 Local APIC 
内 部 集成 的 那些 中 断 源 不 需要 使 用 irq_desc[ ] 来 盛 放 
中 断 服务 入 口 函数 ， 而 是 直接 将 入 口 函数 指针 注册 
到 中 断 门 内 部 。 也 就 是 说 ，irq_desc[ ] 仅 供 外 部 的 一 
般 意 义 上 的 设备 使 用 ， 比 如 串口 、 各 种 第 三 方 PCIE 
设备 等 。 


10.6.2.3 ”相关 数据 结构 的 初始 化 


在 内 核 初始 化 的 最 早期 ， 会 执行 head.s 文 件 中 的 
汇编 代码 ， 其 中 有 一 处 的 标号 是 setup_idt， 在 这 里 使 
用 汇编 代码 直接 创建 一 张 IDT， 并 将 每 个 中 断 门 全 部 
指向 标号 ignore_int 处 的 代码 入 口 ， 该 代码 什么 也 不 
做 ， 只 是 输出 一 些 日 志 就 返回 。 后 续 初 始 化 过 程 中 会 
将 这 些 中 断 门 重新 进行 填充 指向 真正 有 效 的 入 口 。 

随 着 内 核 初始 化 到 start_kernel()， 其 内 部 会 依次 
调用 trap_init()、early_irq_init()、init_IRQ0O 对 中 断 进 
行 全 方位 的 初始 化 。 下 面 依次 介绍 这 三 个 函数 及 其 下 

如 图 10-183 所 示 为 trap_initO 及 其 下 游 作 用 原理 ， 
该 函数 的 主要 目的 就 是 为 系统 保留 的 那些 向 量 号 注册 
对 应 的 中 断 入 口 函数 。 其 调用 了 多 次 set_intr_gateCn， 
addr) 函 数 ， 将 入 口 函 数 指针 addr 注 册 到 IDT 的 第 a 项 
上 上， 并且 将 门 的 类 型 指定 为 中 断 门 。 然 后 ， 其 调用 
set_ 位 () 将 used_vectors[ ] 对 0 一 31 项 置 1 以 占据 它们 。 
然后 调用 set_system_trap_gate() 将 system_call 标 号 处 的 
汇编 代码 入 口 ， 也 就 是 系统 调用 总 入 口 ， 注 册 到 第 
80h 号 门 上 ， 而 且 指 定 门 类 型 为 陷阱 门 ， 意 味 着 系统 
调用 引发 的 中 断 并 不 会 导致 CPU 自动 禁止 中 断 响应 ， 
因为 系统 调用 并 非 紧急 的 不 可 打 断 事务 。 之 后 调用 
cpu_initO 将 IDT 初 始 化 好 的 IDT 的 基地 址 载 入 IDTR 寄 
存 器 ， 以 及 其 他 一 些 初始 化 工作 。 

trap_init 结 束 之 后 就 是 early_irq_init0， 如 图 10-184 
所 示 。 该 函数 的 主要 目的 是 初步 初始 化 irq_desc 数 据 结 
构 ， 将 每 一 项 都 填充 为 默认 值 。 其 中 细节 代码 篇 幅 所 
限 就 不 分 析 了 。 

再 来 看 init_IRQ()， 它 首先 将 CPU0 上 的 vector_ 
irq[48] 一 [63] 这 16 项 (nr_legacy_irqs=16) 对 应 的 
IRQ 号 设置 为 0 一 15。48 一 63 这 16 个 向 量 是 保留 给 利 
用 8259A PIC 接 入 中 断 信号 的 ISA 设 备 使 用 的 ， 所 以 
将 其 IRQ 号 指定 为 0 一 15〈 图 10-182 中 也 可 以 看 到 这 
个 特殊 的 保留 区 域 和 映射 关系 ) 。 然 后 调用 native_ 
init IRQ()， 后 者 先 调用 了 init ISA_irqs0， 其 作用 是 使 
用 legacy_pic->init(0) (对 应 了 回调 函数 init 8259AQ) 对 
8259 PIC 进行 初始 化 配置 ， 然 后 将 ISA 设 备 准备 的 这 
16 个 IRQ 号 对 应 的 irq_desc[ ] 初 始 化 好 ， 也 就 是 调用 
irq_set_chip_and_handler_ name() 函 数 ( 如 图 10-185 
所 示 ) 去 填充 irq_desc->irq_data->chip 以 及 irq_desc- 


>handle_irq 字 段 的 值 为 与 8259A PIC 相关 的 数据 结构 
或 者 函数 指针 。 

然后 调用 apic_intr_init() > alloc intr gate 函 数 去 
初始 化 Local APIC 模 块 内 集成 的 那些 本 地 中 断 源 的 
中 断 门 ， 向 门 中 填 入 针对 这 些 中 断 源 的 中 断 服务 函 
数 入口 ， 并 在 used_vectors 位 图 中 占 位 。 然 后 ， 在 
native init IRQO 主 体 中 利用 一 个 循环 将 从 FIRST_ 
EXTERNAL VECTOR (32) 到 NR_VECTORS 
(256) 之 间 的 中 断 向 量 号 对 应 的 入 口 地 址 写 入 到 IDT 
对 应 的 中 断 门 中 ， 这 部 分 向 量 号 是 给 外 部 普通 设备 使 
用 的 ， 其 中 断 处 理 总 入 口 地 址 都 是 同一 个 : entry_32. 
s 文 件 中 的 common_interrupt 标 号 处 的 代码 ， 而 这 套 代 
码 会 被 复制 成 多 份 ， 形 成 一 个 interrupt[n] 数 组 ， 所 以 
最 终 是 将 对 应 序号 的 该 数组 的 基地 址 写 入 对 应 中 断 
门 。 由 于 在 上 一 步 中 Local APIC 本 地 的 中 断 源 已 经 占 
据 了 250 号 附近 的 向 量 (used_vectors 位 图 中 对 应 位 为 
1) ， 所 以 这 个 循环 中 会 略 过 这 些 向 量 。 如 图 10-186 
所 示 


至 此 ，IDT 已 经 被 完全 初始 化 好 ， 而 且 系 统 保 
留 的 向 量 、LAPIC 内 置 的 中 断 源 向 量 对 应 的 服务 函 
数 也 都 初始 化 好 。 但 是 尚未 将 对 应 的 向 量 值 写 入 
Local APIC 的 LVT 中 ， 此 外 ，IO APIC 以 及 通过 MSI/ 
MSIX 方 式 报告 中 断 的 PCIE 连 接 的 设备 对 应 Vector、 
IRQ 尚 未 初始 化 。 上 面 这 两 步 被 放 在 了 start_kernel() 
> rest_init) > kernel thread) > kernel > smp ти) > 
APIC init uniprocessor() 中 的 诸多 函数 中 ， 包 括 : 
connect bsp_APICO、setup_local APICO、enable IO_ 
АРІС(). setup IO_APICO > setup IO APIC irqs0 > _ 
io_apic_setup_irqs()。 如 图 10-187 所 示 为 APIC іпій 
uniprocessor0 总 流程 。 

在 connect_bsp_APIC() 中 ， 写 入 了 IMCR 寄 存 器 

( 见 图 10-163) 以 将 8259A《〈 如 果 用 了 的 话 ) 连接 到 I/ 

OAPIC 上 ， 而 不 是 直接 与 CPU 连接 。 

fEsetup local APICO0 中 ， 对 LAPIC 内 部 各 个 寄存 
器 做 初始 化 配置 ， 由 于 代码 比较 烦琐 ， 相 信 大 家 只 要 
阅读 了 10.6.1.1 节 ， 基 本 上 可 以 读 懂 这 些 代码 ， 就 不 贴 
出 了 。 该 函数 并 没有 将 所 有 的 LVT 表 项 都 写 入 对 应 的 
向 量 号 (虽然 在 上 一 步 中 已 经 被 注册 到 了 IDT 中 〉， 
其 中 一 些 LVT 项 目 会 在 其 他 零散 的 地 方 被 写 入 ， 比 如 
会 在 intel_init_thermal0 中 执行 h = THERMAL APIC_ 
VECTOR | APIC DM FIXED | АРС ІУТ MASKED; 
аріс write(APIC LVITHMR, В). 

在 如 图 10-188 左 侧 所 示 的 enable IO АРІС(), 
检查 I/O APIC 中 是 否 连 接 了 以 及 哪 根 针脚 连接 了 
82594 PIC， 如 果 检 测 到 对 应 IO Redirection Table 项 
目 中 的 Delivery Mode 为 ExtINT， 则 表示 该 条 目 对 应 
的 针脚 连接 着 8259A 控 制 器 ， 然 后 将 对 应 针脚 号 码 写 
入 8259A PIC 的 相关 数据 结构 中 。 当 然 ，ExtINT 是 由 
BIOS 在 初始 化 时 写 入 HO APIC 的 ， 因 为 只 有 BIOS 知 
道 当前 系统 中 的 具体 硬件 连 线 情况 。 
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-> msi_compose_msg()， 该 函数 用 于 组 装 
对 应 的 MSI/MSI-X 表 项 ， 其 内 部 会 再 次 调 
用 assign irq_vector()， 但 是 后 者 的 内 部 会 
判断 对 应 条 件 ， 不 进行 再 次 分 配 而 直接 略 
过 返回 。 返 回 到 setup_msi_irq(O 后 继续 调 
用 write_ msi msg0 将 组 装 好 的 msg 写 入 到 
设备 对 应 的 MSI/MSI 义 表 项 中 。 如 图 10- 
193 所 示 。 

PCIE 设 备 驱动 程序 接着 调用 request_ 
irq() -> request threaded irq() -> — setup_ 
irq() 来 将 驱动 提供 的 中 断 处 理 程序 的 
handler 函 数 指针 包装 到 一 个 action 结 构 体 
中 并 追加 注册 到 对 应 irq_desc 的 action 结 构 
体 链表 中 ， 由 于 该 函数 代码 非常 烦琐 ,就 
不 贴 出 了 。 如 图 10-194 所 示 。 

值得 一 提 的 是 ， 驱 动 程序 在 调用 
request_irq() 时 需要 提供 irq 号 作为 参数 之 
一 ， 驱 动 程序 可 以 从 entries[i].vector 变 量 中 
得 到 对 应 的 irq 号 。 在 msix_capability_initO 
-> msix program entries0 函 数 中 会 有 这 样 
—fi]: entries[i].vector = entry->irq 来 将 分 配 
到 的 irq 号 写 入 entries[i].vector。 


int node) 
start, 


(unsigned int from, 


(unsigned int 
unsigned int ent, int node) 


desc from 
t а11ос descs 


s(-1, from, 1, node); 


return start; 
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from, cnt, 0); 


(&sparse irq lock); 


10.6.3 中断 基 本 处 理 流程 


在 上 述 的 相关 数据 结构 被 初始 化 之 
后 ， 当 CPU 收 到 中 断 时 ， 跳 转 到 对 应 中 断 
向 量 的 入 口 执行 ， 入 口 程序 需要 做 一 些 铺 
垫 ， 比 如 禁止 抢占 〈 将 preempt_count 中 的 
HARDIRQ_MASK 字 段 +1) 等 ， 然 后 进入 
真正 的 中 断 处 理 流程 ， 调 用 对 应 的 中 断 服 
务 函数 。 之 后 ， 还 需要 对 控制 器 发 送 应 答 


(&sparse irq lock); 
start = bitmap find next zero area(allocated irqs, IRQ BITMAP BITS, <= 


goto |егг; 
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return -EINVAL; 


mutex lock 
if (ret) 


goto |егг; 
if (start + cnt > nr irqs) ( 


return ret; 
« end irq alloc descs » 


ref irq alloc descs(int irq, unsigned int from, unsigned int cnt, int node) 


mutex unlock(&sparse irq lock); 


int start, ret; 
if (irq »-0 && start !- irq) 
return alloc descs 


if (!cnt) 
ret = -EEXIST; 


bitmap set(allocated irqs, start, cnt); 
mutex unlock 


return irq elloc desc from(from, node); 


егг: 


int 
t 


} 


图 10-192 create_irq_nr() 函 数 下 游 流程 原理 


node) 


E M ¿s (比如 写 入 Local APIC 的 EOTI 寄 存 器 ) 以 告 
E БЕ 诉 LAPIC 本 次 中 断 处 理 完毕 ， 可 以 发 送 下 
£ PE. т S 一 个 中 断 了 〈 不 过 此 时 CPU 的 IF 位 依然 为 
E Ps 2 E 0， 所 以 即便 发 了 中 断 也 不 会 响应 ) ， 然 
E +в 3 3 后 继续 执行 一 些 后 续 工 作 ( 触 发 softirq， 
E p їз 5 Š 然后 才 会 重新 打开 中 断 响应 ， 见 下 文 ) ， 
2 зд iss ° pf 最 终 进入 ret_from intr 中 断 返 回流 程 。 

Е * а 25 $73, 总 体 来 说 ， 系 统 内 存在 三 大 类 的 中 
к 8 25 555 585 断 ， 它 们 各 自 有 不 同 的 处 理 路 径 ， 分 别 
> ош із 55 % P ES. Я: 内 部 被 动 中 断 〈 异 常 等 ) 、 内 部 主动 
yl BE dA BE S51 E SE 2 | "PES (系统 调用 、IPI》 和 外 部 中 断 ( 时 
Бош og ту чл $^ x Е 钟 中 断 、I/O APIC, MSI/MSI-X43) . 
9 9%, БЕЗ-өЗ gs #5885 ЧБ р р 对 于 前 两 者 ， 其 中 断 服务 函数 会 被 直接 
ја МЕРТ тастам ы Фу 注册 到 IDT 表 项 的 Offset 字 段 ，CPU 象 
ЗЕЕ ЗЕРЕН.) | 征 性 地 从 GDT 拿 到 段 基地 址 之 后 便 开 
Z gute, рү м ауф < Bo 始 执行 对 应 的 中 断 服务 函数 。 而 对 于 外 
dg TS O Srey gars 部 中 断 ， 又 分 为 系统 级 外 部 中 断 〈 比 如 
Rm t Шо Local APIC 内 部 集成 的 那些 中 断 源 发 出 
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的 中 断 信号 》 和 普通 外 部 中 断 〈 通 常 指 挂 接 在 IO 
APIC 后 面 的 中 断 源 以 及 MSI/MSI-X 中 断 源 ) 。 系 
统 级 外 部 中 断 的 服务 函数 也 是 被 直接 注册 到 IDT 表 
项 的 Offset 上 的 ， 如 图 10-195 中 的 apic_intr_initO) 函 
数 。 而 普通 外 部 中 断 由 于 不 确定 性 较 高 ， 所 以 被 封 
装 的 比较 厚 ， 所 有 普通 外 部 中 断 向 量 的 入 口 其 实 都 
是 common _interrupt 标 记 处 的 汇编 代码 ， 然 后 进入 
do IRQ() > handle irq() >generic handle ша desc() > 
desc-»handle irq() > action->handler() 从 而 最 终 调用 
中 断 服务 函数 。 

do_IRQO 是 如 何 知道 中 断 向 量 的 呢 ? 其 内 部 有 
如 下 代码 序列 : unsigned vector = —regs-»orig ax; ***; 
irq = _ this cpu read(vector_irq[vector]);…。 中 断 到 
来 时 ，CPU 会 将 中 断 向 量 放置 到 寄存 器 中 ， 然 后 在 中 
断 入 口 的 汇编 代码 common_interrupt 中 将 该 向 量 放置 
到 栈 中 的 regs->orig_ax 字 段 ，do_IRQ() 拿 着 这 个 向 量 
去 查询 per CPU 变 量 vector_irq[ ]， 最 终 得 到 对 应 的 irq 
号 ， 再 用 得 到 的 irq 号 作为 handle_irq0 的 参数 之 一 调用 
后 者 。 

上 述 这 个 过 程 如 图 10-196 所 示 。 

对 于 普通 外 部 中 断 ， 在 IO APIC 初 始 化 时 会 对 每 
个 irq 号 注册 对 应 的 总 handler， 比 如 为 handle_ edge irq) 
函数 。 整 个 针对 普通 外 部 中 断 的 处 理 流程 如 图 10- 
197 所 示 。handle_edge_irq() 函 数 内 部 首先 进行 一 系 
列 的 判断 ， 比 如 对 应 的 irq 是 否 已 被 禁用 ， 或 者 action 
链表 是 否 是 空 的 ， 以 及 该 中 断 是 否 正在 被 处 理 ( 被 
其 他 CPU 核心 处 理 ) 过 程 中 ， 如 果 是 ， 则 调用 mask_ 
ack_irq() 函 数 ， 后 者 会 调用 desc->irq_data.chip 中 对 
应 的 回调 函数 来 完成 对 Local APIC 的 对 应 的 操作 。 
最 终 它 会 调用 handle_irq_event() > handle irq event_ 
percpu() 来 进入 具体 中 断 服务 程序 的 执行 过 程 。 后 者 
内 部 会 调用 之 前 被 注册 的 action->handler() 回 调 函 数 
最 终 执行 中 断 服务 程序 ， 然 后 将 action->next 的 值 赋 
值 给 变量 action， 继 续 跳 到 循环 开始 执行 action 链 表 中 
下 一 个 项 目 ， 从 而 将 所 有 注册 的 中 断 服务 程序 依次 
执行 。 

如 图 10-198 一 图 10-200 所 示 为 某 PCIE 接 口 的 SAS 
控制 卡 的 驱动 程序 中 的 代码 片段 ， 从 中 可 以 看 到 其 调 
用 内 核 的 request_irq() 注 册 了 名 为 pqi_irq_handler0 的 
服务 函数 ， 并 可 以 看 到 该 函数 内 部 的 一 些 中 断 处 理 逻 
辑 。 该 控制 器 与 第 7 章 中 介绍 的 SAS 控 制 器 是 同一 个 
系列 ， 可 以 参考 图 7-231 所 示 的 流程 来 理解 代码 。 
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10.6.4 80h 号 中 断 (系统 调用 ) 


系统 调用 属于 一 种 内 部 主动 中 断 ， 其 中 断 源 位 
于 程序 代码 中 的 int/sysenter 指 令 ， 虽 然 int 不 一 定 只 有 
int 80h， 但 是 由 于 其 他 门 的 DPL 几 乎 都 被 设置 为 0， 
只 有 80h 号 门 的 DPL=3， 所 以 用 户 态 只 能 成 功 执行 int 
80h， 其 他 门 号 都 会 由 于 权限 问题 而 访问 失败 ， 无 法 
穿 过 。 

在 发 起 int 指 令 之 前 ， 程 序 必须 将 具体 的 调用 号 
(并 非 中 断 号 ) 放 到 EAX 寄存 器 中 ， 而 将 调用 的 参数 
放 到 数 通 过 寄存 器 EBX/ECX/EDX/ESVEDI 中 。 

在 上 文中 我 们 已 经 介绍 了 内 核 是 如 何 将 80h 号 门 
进行 初始 化 的 。80h 门 最 终 通过 GDT 中 的 指针 指向 了 
位 于 entry_32.s 源 文件 中 的 “system_call” 标 记 处 的 汇 
编 代 码 ， 如 图 10-201 所 示 。 

其 中 最 关键 的 代码 是 pushl_cfi %eax、SAVE_ALL 
和 “call *sys_call_table(,%eax,4)”， 其 意思 是 调用 
位 于 sys_call_table 数 据 结构 (是 一 个 数组 ) 首 地 址 + 

(EAX 寄 存 器 值 X4) 地 址 处 的 代码 。 而 EAX 中 保存 
的 其 实 就 是 系统 调用 号 (注意 ， 系 统 调用 号 并 非 系 统 
调用 的 中 断 向 量 号 80h) ， 用 户 程序 在 执行 int 80h 指 令 
进入 系统 调用 之 前 ， 需 要 先 将 调用 号 放置 到 EAX 寄存 
器 中 ， 编 译 器 会 自动 根据 用 户 传递 的 调用 号 和 参数 来 
生成 对 应 的 底层 指令 序列 。 

在 unistd_64.h 源 文件 中 定义 了 所 有 系统 调用 号 与 
对 应 函数 名 的 映射 关系 ， 比 如 sys_read、sys_write、 
sys_open 的 调用 号 分 别 为 0(、1、2， 此 外 还 有 其 他 三 百 
多 个 系统 调用 被 定义 ， 就 不 一 一 列举 了 。 

在 sys_call_table[ ] 数 组 中 保存 了 每 个 系统 调用 号 对 
应 的 入 口 函 数 的 地 址 指针 ， 由 于 32 位 系统 的 地 址 指针 
为 32 位 (AB) ， 所 以 要 将 EAX 中 的 调用 号 X4 后 再 与 
数组 首 地 址 相 加 即 可 得 出 该 调用 号 对 应 的 入 口 函 数 的 
地 址 。 

sys call table 的 初始 化 代码 为 const sys call ptr_ 
tsys call table[_NR._syscall max*1] = { [0... МЕ. 
syscall max] = &sys ni syscall, include <asm/unistd 64. 
h>}， 该 代码 比较 奇怪 ， 其 行为 是 按照 unistd_64.h 文 件 
中 定义 的 函数 指针 来 填充 sys_call_table[ ] 中 的 每 一 项 ， 
如 果 unistd_64h 没 有 定义 某 个 调用 号 的 函数 名 ， 则 使 用 
sys ni syscall0 的 指针 来 填充 ， 而 sys_ni_syscall0 函 数 的 
代码 就 是 retum -ENOSYS 错 误 码 。 


被 谁 初始 化 


used vectors[] 


trap init(). apic intr init() 


IDT | 


trap init() . init IRQ() > native init іга() > acpi intr init(), Init IRQ() > native init irq( ) 


vector irq[ ] | 


init IRQ() 


irq desc[] | 


early іга init() 


图 10-195 ”关键 数据 结构 的 初始 化 函数 一 览 
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static int pqi_request_irqs(struct pqi_ctrl_info "ctrl info) 


2 


static unsigned int рді process io intr(struct pqi_ctrl_info *ctrl info, 


t 


‘truct pqi_queue_group *queue_group, 


== rc = request, irq(ctrl info-nsix vectors[i], 


static irqreturn_t pqi_irq_handler(int irq, void *data) 
t 


int i; int rc; 
ctrl info-»event, irq = ctrl info-»nsix vectors[0]; 
for (i = 0; 1 < ctrl info-»num msix vectors enabled; i++) ( 


struct рді ctrl info *ctrl info; 
struct раї queue group "queue group; 
unsigned int num responses handled; 
queue group = data; 
ctrl info - queue group-»ctrl info; 
if (ірді, is valid irq(ctrl info)) 
return IRQ NONE; 
mum responses handled = рді, process io intr(ctrl info, queue group); «= 
d 34 (ага == ctrl info-»event іга) 
mum responses handled += рді, process event intr(ctrl info); 4— 
34 (num responses handled) 
atomic inc(&ctrl info-»num interrupt 
==» pai start io(ctrl info, queue group, RAID PATH, NULL); 
Pqi start io(ctrl info, queue group, AIO PATH, NULL); 
return IRQ HANDLED; 


— palira handler, 6, 
DRIVER NAME SHORT, сёгі, info-»intr data[i]); 
if (rc) (dev err(&ctrl info-»pci dev-»dev 


ctrl info-»nsix vectors(i], rc) 
return rc;) 
сега info-»num nsix vectors initializedes; 


return 0; 
) 


图 10-198 调用 request irq0 来 注册 pqi_irq_ handler0 中 断 服务 函数 


io request-»status = -EAGAIN; 
struct рді queue group "queue group) break; 
с РОТ RESPONSE IU RAID PATH IO ERROR: 


unsigned int mum responses; 

раі index t oq pi; 

pdi index t oq ci; 

request "io request; 
sponse "response; 


case PQI RESPONSE IU AIO PATH IO ERROR: 
io request-»error info = ctrl info-»error buffer + 
(get unaligned lei6(&response-»error index) * 
PQI ERROR BUFFER ELEMENT, LENGTH) ; 
рді process io error(response-»header.iu type, 
io request); 


num responses а е 
oq ci = queue group-»oq ci сору; 
While (1) ( 
Oq pi = "queue group-»oq pi; 
if (оа pi == oq ci) 
breal 


sen 

queue group-»oq element array + 
СЕ PQI OPERATIONAL, OQ ELEMENT, LENGTH) ; 

request id = get unaligned lelé(&respon 

BUG ON(request id >= ctrl info-»ma ots); 

io request = &ctrl info-»io request pool[request id]; 

BUG. ON ( atomic, | 


respons: 


response-»header.iu type); 
BUG; 
break; 
} « end switch response-»header.iu t 
io request-»io complete callback(io request, 
10 request-»context); 
о4 ci = (oq ci + 1) X ctrl info-»num elements per oq; 
} « end while 1 » 
if (num responses) ( 
queue group-»oq c 
writel(oq ci, que 


ad(&io request-»refcount) == 0); 


case РОТ F RESPONSE .IU GENERAL, MANAGÉ 


copy = oq ci; 


case РТ ДЕ5РОН5Е 10 TASK MANAGEMENT: 
'! group-»oq ci); 


io request-»status = 
pqi interpret task management response( 
(void *) гезропзе); 


сме Р) REsponsE 10 AIO, РАТН DISABLED: 
pqi_aio_path_disabled(io_request); 


图 10-199 pqi irq handler0 内 部 调用 的 关键 子 函数 


ctrl info-»num elements per iq)) 


return num responses; 
} « end pai process io intr » 


enum рді ic path path, 


truct рді io request "10 request) break; 


‘truct рді io request *next; 
‘014 *next element; 


put 1 unaligned ; lei6(queue group-»oq id, 
&request-»response queue id); 
next element - queue group-»iq element array[path] * 


бі index t iq pi; 
мі index t iq ci; 
ize t iu length; 
insigned long flags; 
insigned int num elements needed; 
insigned int num elements to end of queue; 
ize t copy count; 
truct рді iu header *request; 
pin lock irqsave(&queue group-»submit lock[path], flags); 
+ de, equest) ( 
'equest-»queue group = queue group; 
Bst - add tail(&io request-»request list entry, 

&queue group-»request list[path]); 


арі = queue group-»iq pi copy[path]; 
ist for each entry safe(io request, next, 
&queue group-»nequest list[path], request list entry) ( 
request - io request-»iu; 
iu length = get unaligned lei6(&request-»iu length) + 
PQI REQUEST HEADER LENGTH; 
num elements needed - 
DIV ROUND UP(iu length, 


(iq pi * PQI OPERATIONAL IQ ELEMENT LENGTH); 
num elements to end of queue - 
ctrl info-»num elements per iq - iq pi; 
АҒ (num elements | 
memcpy(next element, request, iu length); 
) else ( 
copy count = num elements to end of queue * 
PQI OPERATIONAL IQ ELEMENT, LENGTH; 
memcpy(next element, request, copy count); 
memcpy(queue group-»iq element array[path], 
(u8 *)request + copy count, 
iu length - copy count); 


} 

iq pi = (iq pi + num elements needed) X 
ctrl info-»num elements per iq; 

list del(&io request-»request list entry); 


if (iq pi !- queue group-»iq pi copy[path]) ( 


queue group-»iq pi copy[path] - iq pi; 
writel(iq pi, queue group-»iq pi[path]); 


еедей <= num elements to end of queue) 


10.6.5 中断 上 半 部 和 下 半 部 


于 中 断 处 理 期 间 CPU 一 直 处 于 停止 响应 外 部 中 断 状态 
CNMI 除 外 ) ， 如 果 中 断 处 理 程序 执行 时 间 过 长 ， 则 


l 
PQI OPERATIONAL IQ ELEMENT LENGTH); spin unlock irqrestore(&queue group-»submit lock[path], flag: 


图 10-200 рді irq handler0 内 部 调用 的 关键 子 函数 


会 导致 外 部 设备 后 续 的 中 断 迟 迟 无 法 响应 ， 从 而 导 
致 设备 内 部 缓冲 区 溢出 等 问题 。 为 此 ， 人 们 利用 流 
水 线 原 理 ， 将 中 断 处 理 流程 分 成 两 个 大 步骤 : 上 半 
部 (Тор Half, th) 和 下 半 部 (Bottom Half, bh) . 
上 半 部 运行 时 保持 中 断 响应 继续 处 于 关闭 状态 ， 同 


有 时 候 中 断 服务 程序 的 处 理 步骤 比较 多 ， 而 由 


syscall exit: 


ENTRY(system call) syscall exit work: 
RINGO INT FRAME tesil $ TIF WORK SYSCALL EXIT, wecx 
pushl $ E] Ха jz work | 

TRACE ТЕО 


МЕ А 
GET | THREAD ) INFO(%ebp) 
том ср, %ғах 
тези $ ПЕ WORK SYSCALL ENTRY,TI flags(%ebp) сай syscall trace leave 
jnz syscall trace entry ° userspace 
стр! $(nr cali %еах 
jae syscall badsy: 


jmp resume 
ENDsyscall_exit work) 


syscall сай: 


сай *sys call table(. %eax,4) 
том %eax PT ЕАХ(Февр) 


т А 


LOCKDEP SYS E 
DISABLE ШОШ ANY) 

IRQS jne work pending 
Bon т аср кес jmp restore all 
testi $ ПЕ ALLWORK CMASK, Жек 


jne syscall exit work 


ENABLE.  INTERRUPTS(CLBR / ANY) 


DISABLE "NTERRUPTSICLBR | ANY) 
том ТІ flags(%ebp), %ecx 
andl $_TIF WORK MASK, %ecx 
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tore all: 
TRACE IRQS IRET 

restore all notrace: 
том PT EFLAGSQXesp), %eax 
movb PT OLDSSCKesp), жап 
mob FY Cowesph за 


MI (SEGMENT TI MASK << 8) | SEGMENT ЕРІ. MASK), %eax 


па! $0486 
mpl S(SEGMENT | "Dr ec 8) | USER АРІ), феах 
CFI REMEMBER STATE 
je dt ss 
restore посһесіс 
RESTORE REGS 4 
irq return: 
INTERRUPT RETURN 


fdefine INTERRUPT RETURN iret 


图 10-201 系统 调用 的 入 口 和 出 口 代码 


时 迅速 处 理 完 毕 ， 主 要 动作 是 应 付 伺 候 硬件 ， 先 把 
中 断 请 求 收 进来 ， 然 后 赶紧 更 新 对 应 的 硬件 寄存 器 
给 硬件 塞 上 奶嘴 ， 下 半 部 运行 时 则 打开 中 断 响应 ， 
如 果 此 时 又 发 生 外 部 中 断 则 继续 按照 上 述 步 骤 处 
理 ， 这 样 就 可 以 尽 可 能 地 先 保证 让 外 部 中 断 得 到 快 
速 响应 ， 但 是 也 会 导致 下 半 部 处 理 步骤 嵌 套 积压 ， 
不 利于 每 个 中 断 响 应 的 时 延 ， 会 稍稍 增加 一 些 。 

具体 来 讲 ， 上 半 部 和 下 半 部 应 分 别 对 应 各 自 的 处 
理 函 数 ， 设 备 驱动 程序 调用 request_irq0) 注 册 的 handler 
函数 完成 上 半 部 的 执行 步 又， 然后 会 调用 对 应 的 函数 
去 激活 下 半 部 运行 (注意 ， 只 是 激活 ， 下 半 部 会 在 中 
断 处 理 返回 前 夕 得 到 检测 和 运行 ) 。 比 如 ， 对 于 一 个 
SCSI 类 型 的 HBA (SCSISAS/FC НВА) 的 驱动 程序 所 
注册 的 handler 程 序 ， 其 会 调用 scsi_done() 函 数 ( 由 内 
核 提供 ) 激活 下 半 部 处 理 。 


10.6.5.1 softirq 


下 半 部 的 中 断 处 理 流程 被 称 为 softirq〈 软 中 断 ， 
注意 ， 不 要 与 int 指 令 相 混淆 ， 虽 然后 者 也 被 俗称 为 
软 中 断 ) 。 上 半 部 需要 与 硬件 打交道 ， 而 下 半 部 流程 
与 硬件 已 经 没有 什么 直接 联系 ， 下 半 部 更 多 是 与 OS 
内 核 打 交道 。 这 样 的 话 ， 同 一 类 的 不 同 厂商 的 设备 就 
可 以 调用 同一 个 下 半 部 handler 函 数 ， 比 如 不 同 厂商 的 
SAS HBA 卡 ， 其 下 半 部 流程 都 是 相同 的 ， 不 同 厂商 的 
以 太 网 卡 ， 其 下 半 部 处 理 流程 也 相同 。 所 以 Linux 内 核 
给 出 并 实现 了 10 类 下 半 部 处 理 handler 函 数 ， 类 别名 分 
JlJ J: HI SOFTIRQ. TIMER SOFTIRQ. NET TX ` 
SOFTIRQ. NET ЕХ SOFTIRQ. BLOCK SOFIIRQ. 
BLOCK IOPOLL SOFTIRQ. TASKLET SOFTIRQ. 
SCHED SOFTIRQ. HRTIMER SOFTIRQ. RCU - 
SOFTIRQ. 

内 核 使 用 一 个 全 局 变量 softirq_vec[ ] 来 按 顺序 盛 
放 上 面 10 类 软 中 断 handler 函 数 的 栈 指针 。 比 如 softirq_ 
vec[4] 的 值 为 *blk_done_softirq， 也 就 是 blk_done_ 
softirq() 的 指针 ，blk_done_softirq0 〇 函数 就 是 BLOCK_ 
SOFTIRQ 软 中 断 的 handler 函 数 。open_softirq0 函 数 用 
于 将 handler 函 数 指针 写 入 到 注册) 该 数组 中 对 应 
的 mr 序号 处 ， 其 实现 为 : void open softirq(int ш, void 


(*action)(struct softirq action *)) (softirq vec[nr].action 
= асНоп;} > 

针对 块 设备 和 网 络 设备 ， 内 核 初 始 化 时 分 别 使 
用 blk_softirq_initO 以 及 net_dev_initO 函 数 通过 调用 
open_softirq() 来 注册 对 应 的 软 中 断 handler， 代 码 分 
别 为 static _ init int ЫК softirq init(void)(***; open - 
softirq(«BLOCK SOFTIRQ, blk done softirq):**:) 
以 及 static int — init net dev init(void)net dev | 
init() (***: open softirqg(:NET TX SOFTIRQ, net tx - 
action); open softirq(:NET ЕХ SOFTIRQ, net rx - 
action); …} 。 

那么 ， 这 些 handler 何 时 被 调用 ? 与 任务 抢占 实 
现 类 似 ， 在 中 断 上 半 部 handler 程 序 中 通过 调用 raise | 
softirq_irqoff() 函 数 将 per CPU 数据 结构 irq_stat 中 的 
_ softirq_pending 成 员 变量 对 应 的 位 置 1， 从 而 激活 

(raise) softirq， 这 就 相当 于 调度 时 将 need_resched 标 

志 位 置 1 一 样 ， 但 是 并 不 立刻 触发 sehedule(0)。 在 do_ 
IRQ0O 函 数 尾部 的 irq_exit() 中 ， 会 调用 local_softirq_ 
pending( 判 断 irq_stat._softirq_pending 是 否 不 为 0， 是 
则 调用 invoke_softirq0 > __do_softirq() 执 行 softirq_vec 
中 的 action 回 调 函 数 从 而 执行 了 softirq。 

下 面 贴 一 些 实际 代码 供 大 家 参考 。 一 切 从 图 10- 
199 中 右 下 方 所 示 的 io_complete_callback() 回 调 函 数 
开始 ， 该 SAS 卡 驱动 针对 不 同 的 IO 属性 和 场景 提供 
了 不 同 的 IO 完成 处 理 回调 函数 ， 比 如 图 10-202 所 示 
的 pqi_aio_io_complete() 函 数 ， 我 们 以 它 为 例 ， 该 
函数 最 终 会 调用 pqi_scsi_done()， 后 者 则 调用 scsi_ 
done(0 〇 函数 一 步 步 地 激活 软 中 断 。scsi_done() > blk_ 
complete request() > _ blk complete request() > 
raise softirq irqoff() > — raise softirq irqoff() > or - 
softirq pending), Мга stat. softirq pending 
对 应 的 位 置 位 。1<<nr 表 示 将 1 左 移 nr 位 ， 比 如 nr 
为 4 (BLOCK SOFTIRQO , Мата stat. softirq | 
репаіпо{& 7j 00000000000000000000000000010000 . 
如 果 有 多 个 软 中 断 被 触发 ， 那 么 该 值 中 对 应 的 位 就 
会 被 置 1。 

上 述 代码 位 于 do_IRQO > handle irq 下游， 其 
返回 之 后 ， 最 终 进入 irq_exitO > invoke softirq) > _ 
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static void blk_done_softirq(struct softirq action "ћу 


struct list head *cpu list, local list; 

local irq disable(); 

cpu list - & get cpu var(blk cpu done); 

list replace init(cpu list, &local list); 

local irq enable(); 

while (!list empty(&local list)) ( 
struct request *rq; 


га = list entry(local list.next, struct request, csd.list); 


list del init(&rqg-»csd.list); 


rq-»q-»softirq done fn(rq); 
) b cd 
h 


static void SCSÍ 50 
М 


struct request queue теє alloc queues scsi device “sdev, 
| 2 


struct request_queue "4; 
qp теза tec queue(sdev->host, веза. reglest fn); 
if (14) "i 
return NULL; 
blk queue prep rq(q, scsi prep fn); 
blk queue softirq done(q, scsi softirq doné); 
blk queue rq timed out(q, scsi times out); 
blk queue lld busy(q, scsi lld busy); 
return q; 


void blk queue softirq done(struct request queue “ч, softirq done fn *fn| 


q-^softirq done fn = fa; 


irq done(struct request *rq) 


struct scsi cmnd "ста = rq-»special; 
unsigned long wait for = (cmd-»allowed + 1) + 
int disposition; 
INIT LIST HEAD(&cmd-»eh entry); 
atomic inc(&cmd-»device-»iodone cnt); 
if (cmd-»result) 
atomic inc(&cmd-»device-»icerr cnt); 
disposition = scsíi decide disposition(cmd); 
if (disposition != SUCCESS && 
time before(cmd-»jiffies at alloc + wait for, jiffies)) (| 
sdev printk(KERN ERR, cmd-»device, 
"timing Gut command, waited %lus\n", 
wait for/HZ); 
disposition - SUCCESS; 


rq-»tineout; 


Scsi log completion(cmd, disposition); 
switch (disposition) ( 
сазе SUCCESS: 
scsi finish command(cmd); 
break; 
case NEEDS RETRY: 
scsi queue insert(cmd, SCSI MLQUEUE EH RETRY); 
break; 
case ADD TO MLQUEUE: 
scsi queue insert(cmd, SCSI MLQUEUE DEVICE BUSY); 
break; 
default: 
АҒ (iscsi eh scmd add(cmd, 0)) 
scsi finish command(cnd); 


« end scsi softirq done 


图 10-204 ЫК done softirq() КА 


次 处 理 ， 这 样 ， 最 多 允许 循环 处 理 10 次 ， 如 果 依然 
pending， 那 么 对 不 起 ， 软 中 断 handler 函 数 就 别 在 中 
断 上 下 文 运 行 了 ， 转 去 一 个 名 为 ksoftirqd 的 内 核 线 
程 中 运行 ， 该 线程 的 入 口 函数 为 run_ksoftirqd0， 其 
实现 如 图 10-205 所 示 。 


static int run_ksoftirqd(void * _bind_cpu) 


set current state(TASK INTERRUPTIBLE); 
while (!kthread should stop()) { 
preempt disable(); 
if (!local softirq pending()) ( 
preempt enable no resched(); 
schedule(); 
preempt disable();) 
set current state(TASK RUNNING); 
while (local softirq pending()) ( 


if (cpu is offline((long) bind cpu)) 
goto jwait to die; 
local irq disable(); 
if (1оса1 softirq pending()) 
. do softirq(); 4— 
local | irq enable(); 
preempt enable no resched(); 
cond resched(); 
preempt disable(); 
rcu note context switch((long) bind cpu); 
preenpt enable(); 
set current state(TASK INTERRUPTIBLE); 
) « end while ІКіһгеад should stop(... » 
_ set current state(TASK RUNNING); 
return 0; 
wait to die: 
preempt enable(); 
set current state(TASK INTERRUPTIBLE); 
while (!kthread should stop()) ( 
schedule(); 
set current state(TASK INTERRUPTIBLE); } 
set current state(TASK RÜNNING); 
return 0; 
« end run ksoftirgd » 


图 10-205 ”ksoftirqd 线 程 的 入 口 函数 
ksoftirqd 线 程 是 在 内 核 初始 化 阶段 中 的 init 线 程 中 


调用 do_pre_smp initcalls() > spawn ksoftirqd() > cpu_ 


callback() > kthread_create_on_node() 函 数 创建 的 ， 关 
于 内 核 线程 的 创建 过 程 前 文中 已 经 介绍 过 ， 在 此 可 以 


根据 代码 回顾 一 下 。 

经 过 这 样 处 理 之 后 ， 在 软 中 断 压力 过 大 的 系统 
中 ， 剩 余 来 不 及 处 理 的 软 中 断 被 放 在 了 内 核 线程 中 
处 理 ， 与 其 他 线程 共同 参与 调度 ，ksoftirqd 的 线程 


优先 级 被 适当 调 低 ， 以 保证 用 户 任务 被 更 多 调度 
运行 。 


总 结 一 下 就 是 : 担心 硬 中 断 处 理 时 间 太 长 而 影响 
后 续 硬 中 断 的 处 理 ， 引 入 了 下 半 部 的 软 中 断 ; 而 担心 
软 中 断 处 理 时 间 过 长 而 影响 到 系统 中 线程 的 运行 ， 引 
入 了 ksoftirqd 内 核 线 程 来 运行 超过 被 允许 在 中 断 上 下 
文中 运行 的 额定 量 软 中 断 数 量 的 软 中 断 ， 将 它们 挪 到 
线程 上 下 文中 运行 。 


10.6.5.3 softirq 与 preempt_count 


在 10.4.2 节 中 介绍 过 抢占 以 及 preempt_count， 该 
变量 内 部 划分 了 多 个 字段 ， 其 中 有 与 硬 中 断 、 软 中 断 
相关 的 字段 。 本 节 我 们 结合 软 中 断 来 完善 介绍 一 下 ， 
此 处 建议 回顾 一 下 preempt_count。 

__do_softirq() 函 数 每 次 执行 时 是 将 SOFTIRQ_ 
MASK 字 段 的 最 低位 (也 就 是 preempt_count 字 段 的 第 
8 位 ， 从 0 开始 数 ) +1， 用 来 表示 当前 已 经 进入 了 软 中 
断 处 理 。 

而 Softirq 也 可 以 被 在 任意 时 刻 手动 使 能 和 禁止 ， 
通过 local_bh_enable() 和 local_bh_disable() 函 数 ， 
其 本 质 就 是 将 SOFTIRQ_MASK 字 段 (从 preempt_ 
count 的 第 9 位 开始 ) 进行 加 减 操作 。 所 以 SOFTIRQ_ 
MASK 字 段 也 有 多 个 位 ， 因 为 可 以 多 次 连续 手动 禁 
止 softirq。 

如 图 10-206 所 示 ，irq_exit() 中 会 调用 in_ 
interrupt() 判 断 当 前 是 否 处 于 中 断 上 下 文 。in_ 
interrupt 为 一 个 宏 ， 其 定义 是 : (preempt_count() 
& (HARDIRQ MASK | SOFTIRQ MASK | NMI_ 
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in interrupt() 


in nmi) in кад im sofürq() — im serving sofürq() 
hardiq|coumt() softira count() 
Reserved PREEMPT ACTIVE — NMI MASK менй» энене PREEMPT MASK 
CN 

BH—H E) а HEBE 00000000 1 ЕЕ ЕЕЕ] ESI 

mmi en er(): + ММП OFFSET + HARDIRQ OFFSET ira enter(): + HARDIRQ OFFSET + SOFTIRQ DISABLE OFFSET preempt disable() : + PREEMPT OFFSET 

miei): - NMI OFFSET - HARDIRQ OFFSET ira exit(): - HARDIRQ OFFSET locale ета: 7 SOFIIRQ DISABLE OFFSET Preempt enable) - - PREEMFT OFFSET 

o sofür(): — *SOFTIRQ OFFSET 

0 0 0 0 Оооо ојојојојојој|о|о 010]0/0]0]0/|0/1 
g | — 0 0 0 о јојо т оо о [о [о ооо | о јо о јо ооо о 
0 | — 0 0 0 0|0|01|0 0|0|0)|0)|0(|0|0)|1 ојојојојојојо|о 
0 | wm 0 0 0 0|0|0/0 о [о [о о јо јо | т о ојојојојо|ојо|о 
0 0 0 1 о о [оо о1о [ооо јо јо о ооо оодо оо 
PREEMPT_OFFSET HARDIRQ_OFFSET SOFTIRQ_OFFSET SOFTIRQ DISABLE OFFSET NMI OFFSET 


10-206 中断 处 理 过 程 中 对 preempt_count 的 操作 示意 图 


MASK)). HARDIRQ MASK, SOFTIRQ MASK, 

NMI_MASK 各 自 都 是 宏 定 义 ， 分 别 为 : 00000000 
00000000 00000001 00000000、00000000 00000001 
00000000 00000000、00000000 00010000 00000000 
00000000。 所 以 当前 系统 不 管 是 正在 执行 硬 中 断 还 是 
软 中 断 ，in_interrupt0 都 返回 1。 

如 果 in_interruptO 返 回 1， 则 表示 发 生 了 中 断 嵌 
套 ， 则 irq_exit0 不 调用 invoke_softirq0。 如 果 这 样 岂 不 
是 会 丢失 本 次 软 中 断 处 理 ? 非 也 。 上 文中 可 以 看 到 ， 
. do softirq0 函 数 会 对 pending 变 量 中 每 个 位 从 头 循环 
判断 ， 所 以 ， 只 要 raise 了 softirq， 总 会 得 到 执行 。 位 
于 人 嵌 套 内 层 的 中 断 处 理 不 需要 处 理 软 中 断 ， 因 为 当 内 
层 返 回 到 外 层 时 ， 外 层 会 继续 处 理 软 中 断 ， 内 层 raise 
的 softirq 也 会 被 外 层 一 并 处 理 掉 。 而 如 果 内 层 中 断 处 
理 程 序 不 管 外 层 而 擅自 处 理 了 软 中 断 ， 此 时 会 产生 重 
入 ， 也 就 是 外 层 处 理 了 一 半 的 软 中 断 ， 由 内 层 代码 重 
新 又 处 理 了 一 遍 ， 此 时 会 产生 问题 。 


10.6.5.4 tasklet 


上 文中 提 到 下 半 部 软 中 断 几乎 都 是 与 硬件 无 关 
的 处 理 步骤 ，Linux 内 核 给 出 了 若干 种 封装 好 的 统一 
的 软 中 断 处 理 handler 可 供 调 用 。 但 是 有 时 候 设备 驱动 
程序 希望 内 核 提 供 一 种 机 制 可 供 其 自行 注册 一 个 自 
定义 的 handler 函 数 来 处 理 下 半 部 分 。 但 是 ,五花八门 
的 驱动 程序 可 能 会 注册 不 同 的 大 量 的 handler， 都 放 到 
softirq уес[ ] 中 不 便于 管理 ， 此 外 ，softirq 代 码 中 也 并 
未 提供 可 动态 注册 新 的 softirq 到 softirq_vec[ ] 的 机 制 ， 
softirq_vec[ ] 是 预先 静态 定义 的 。 

内 核 采用 这 种 方法 来 解决 这 个 问题 : 在 softirq 中 
提供 一 项 叫 作 TASKLET_SOFRIRQ 的 项 目 ， 然 后 给 该 
项 注册 一 个 名 为 tasklet_action0 的 总 handler， 各 个 驱动 
程序 将 自己 的 handler 挂 接 到 一 个 队列 中 去 ， 然 后 激活 
TASKLET SOFTIRQ， 然 后 _do softirq0 执 行 tasklet - 


action0， 后 者 再 从 队列 中 取出 所 有 待 执行 handler 各 个 
执行 。 这 种 做 法 相当 于 让 多 个 不 同 的 handler 共 享 同 一 
个 softirq_vec。 每 个 由 驱动 程序 注册 的 handler 被 称 为 
一 个 tasklet (小 任务 ) 。 

由 于 _do_softirq() 是 从 softirq_vec[0] 开 始 依次 检 
测 并 执行 每 个 pending 的 软 中 断 ， 所 以 softirq_vec[0] 
的 优先 级 最 高 。softirq_vec[0] 对 应 着 HL_SOFTIRQ， 
HI 表示 High Priority， 其 handler 被 注册 为 tasklet hi_ 
action0， 如 果 驱 动 程 序 需要 注册 一 个 高 优先 级 的 软 中 
断 handler， 则 需要 将 其 注册 到 HI SOFTIRQ 下 面 。 下 
面 我 们 来 看 一 下 注册 tasklet 的 基本 流程 。 

如 图 10-207 所 示 为 tasklet 的 初始 化 过 程 ， 在 内 核 
初始 化 的 start_kernel0 过 程 中 会 调用 softirq_init0 进 行 
tasklet 的 总 handler 的 注册 过 程 。 
rq init(vis 


№014 init SO 
М 


int cpu 
for. Sach f possible cpu(cpu) { 
Tint 


per. iu (tasklet, | vec, cpu).tail 
&per cpu(tasklet vec, cpu).head; 
per cpu(tasklet hi vec, cpu).tail - 
üper cpu(tasklet hi vec, cpu).head; 
for (i = 0; i < NR SOFTIROS; i++) 
INIT LIST HEAD(&per cpu(softirq work list[i], cpu));| 


y 

register hotcpu notifier(&remote softirq cpu notifier); 
| softirq(TASKLET SOFTIRQ, tasklet action);«—— 

open softirq(HI SOFTIRQ, tasklet hi action); + 一 


图 10-207 tasklet 初 始 化 过 程 


而 设备 驱动 程序 还 需要 注册 自己 的 实际 handler， 
其 需要 先 将 handler 描 述 在 一 个 tasklet_struct{ } 中 ， 然 
后 调用 tasklet_schedule0 或 者 tasklet_hi_schedule() 将 该 
handler 注 册 到 tasklet_vec 结 构 中 。 这 个 步骤 如 图 10- 
208 所 示 。 

tasklet_struct 结 构 中 的 func 域 就 是 下 半 部 中 要 执行 
的 handler 函 数 ，data 是 它 唯 一 的 参数 。State 域 的 可 取 
值 为 0、TASKLET STATE SCHED (已 被 调度 正 准备 
投入 运行 ) 或 TASKLET STATE RUN (正在 运行 ) 。 
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struct tasklet struct 
M 


struct tasklet_struct *next; 
unsigned 1ong state; ВИН ЧЕК 
atomic t count;/* 状 态 
void (*func)(unsigned ёз /*handler 函 数据 针 */| 
unsigned long data;/* 传 递 给 handler 的 参数 */ 

Di 


static void tasklet action(struct softirg action *a) 
t 


struct tasklet_struct *list; 
local_irq_disable(); 
list = This ері read (tasklet vec. hend); 

— this cpu write(tasklet vec.head, B 
— this cpu write(tasklet vec.tail, Ae vs Esse ac .head) | 
local irq enable(); 
while (list) {4— 

struct iren net *t = list; 


tatic inline void tasklet schedule(struct tasklet struct 


if (!test and set bit(TASKLET STATE SCHED, Bt-»state)) 
_ tasklet schedule(t); 


list - list-» 
if (tasklet 1 trylock(t)) { 
if (latomic read(&t-»count)) { 
if (!test and clear bit(TASKLET STATE SCHED, &t-»state)) 


*t 


t-»func(t-»data); == 


void _ tasklet schedule(struct taskiet struct *t)| 
t 

unsigned long flags; 

local irq save(flags); 

t-»next - NULL; 

* this cpu read(tasklet vec.tail) = t; + 一 


this cpu write(tasklet vec.tail, &(t-»next)); — 
raise softirq irqoff(TASKLET SOFTIRQ); «— 
local irq restore(flags); 


tasklet unlock(t); 
continu 


йш, ;_иплоск(х); 


local іга disable(); 

t-»next = NULL; 

* this cpu read(tasklet vec.tail) = t; 

s cpu write(tasklet vec.tail, &(t-»next)); 
se ru MN  SOFTIRQ); 


图 10-208 tasklet 的 准备 、 注 册 和 执行 过 程 


Count 域 是 tatsklet 的 引用 计数 器 ， 如 果 它 不 为 0， 则 其 
被 禁止 运行 ， 为 0 则 允许 运行 。tasklet_disable 和 tasklet_ 
enable0 函 数 就 是 通过 更 新 count 字 段 发 挥 作用 。 

. tasklet schedule0 将 构建 好 的 tasklet_struct 追 加 
到 本 CPU 对 应 的 tasklet vec[ ] 数 组 (该 数组 为 per сри 
数据 结构 ， 每 个 CPU 对 应 该 数组 中 的 一 个 元 素 ) 中 对 
应 元 素 指向 的 结构 体 的 尾部 ， 然 后 调用 raise_softirq_ 
irqoff() 激 活 TASKLET_SOFTIRQ 软 中 断 。 

软 中 断 被 执行 时 会 执行 TASKLET_SOFTIRQ 对 应 
的 总 handler， 也 就 是 tasklet_action0， 该 函数 内 部 会 使 
用 while 循 环 来 遍历 tasklet_vec 对 应 元 素 的 链表 ， 从 而 
执行 链表 中 注册 的 所 有 handler。 

值得 一 提 的 是 ， 同 一 个 softirq 的 handler 可 能 会 被 
不 同 的 CPU 同时 执行 〈 因 为 外 部 设备 发 送 的 中 断 信号 
每 次 可 能 会 有 不 同 的 目标 CPU) ， 所 以 需要 针对 共享 
变量 考虑 考虑 锁 的 问题 ， 不 过 由 于 softirq 一 般 只 被 内 
核 内 置 原生 的 模块 使 用 ， 所 以 预先 都 会 考虑 这 些 问 
题 ， 外 部 设备 驱动 程序 几乎 没有 直接 使 用 softirq 的 ， 
都 是 使 用 tasklet。 而 被 tasklet 封 装 起 来 的 同一 个 handler 
只 能 在 一 个 CPU 上 和 运行， 可 以 看 到 tasklet_action0) 中 
会 调用 tasklet_trylockO 函 数 ， 该 函数 内 部 会 检查 对 应 
tasklet 的 tasklet_struct 中 的 state 字 段 是 否 为 0， 为 0 则 
表示 其 还 没有 被 其 他 CPU 运行 ， 如 果 不 为 0， 则 表示 
其 已 经 在 运行 ， 则 自己 不 会 运行 它 。 不 同 的 tasklet 
handler 可 以 在 多 个 CPU 上 并 发 运行 。 

综 上 ，tasklet 本 质 上 是 利用 单个 softirq 向 量 handler 
来 执行 大 量 注册 的 子 handler， 且 执行 方式 上 使 用 锁 来 
避免 同一 个 handler 同 时 被 多 个 CPU 执行 。 


10.6.5.5 workqueue 

Linux 内 核 被 设计 为 中 断 服务 程序 执行 时 不 能 阻 
塞 或 者 休眠 ， 必 须 一 气 呵 成 执行 完 必 要 的 处 理 步骤 ， 
让 do_IRQO 返 回 到 ret_from intr 中 ， 在 后 者 代码 中 方 
可 调用 schedule0 切 换 任务 。 如 果 在 中 断 处 理 期 间 直接 


调用 schedule()， 或 者 其 他 可 能 导致 休眠 /阻塞 的 函数 
〈 比 如 一 些 IO 函数 ) ， 理 论 上 也 并 不 是 不 可 以 ,但 

是 会 被 内 核 限制 住 无 法 这 样 做 ， 比 如 scheduleO) 函 数 内 
部 会 判断 in_interrupt0， 如 果 为 真 ， 则 BUGO。 

softirq 和 tasklet 的 handler 都 运行 在 中 断 上 下 文 ， 都 
不 允许 休 卢 阻塞。 然而， 的确 有 一 些 中 断 服务 程序 不 
得 不 调用 一 些 导 致 休眠 /阻塞 的 函数 ， 毕 况 需 求 是 千 
奇 百 怪 的 。 面 对 这 种 需求 ， 如 果 能 够 将 这 些 handler 打 
包 到 一 个 内 核 线程 中 去 执行 的 话 ， 该 线程 就 可 以 实现 
休眠 而 且 被 调度 了 。 一 个 疑问 是 上 文 所 述 的 ksoftirqd 
内 核 线程 难道 不 可 以 用 来 做 这 件 事 么 ? 其 本 质 虽 然 类 
似 ， 但 是 ksoftirqd 只 是 为 了 缓解 softirq/tasklet 压 力 过 大 
时 的 一 种 临时 方案 。 

为 此 ，Linux 内 核 在 2.5 版 本 中 开始 提供 workqueue 
机 制 来 容纳 有 这 种 需求 的 handler。workqueue 的 基本 
思想 是 创建 内 核 线程 来 执行 handler， 用 对 应 的 数据 结 
构 来 记录 诸如 handler 指 针 、 线 程 的 task_struct、 各 种 
参数 等 ， 并 实现 一 些 函数 来 管理 这 些 数 据 结构 ， 比 如 
创建 /删除 、 登 记 注册 handler 等 。 

如 图 10-209 所 示 为 workqueue 关 键 的 几 种 数据 结 
构 。 将 整个 workqueue 在 全 局 上 组 织 起 来 的 最 顶端 数 
据 结构 是 全 局 静态 变量 workqueue， 其 是 一 个 由 多 个 
struct workqueue_struct{ } 链接 起 来 的 链表 ， 内 核 程序 
可 以 调用 create_workqueue() 来 创建 新 的 workqueue_ 
struct。 每 个 workqueue_struct 内 部 又 记录 了 一 个 struct 
cpu_workqueue_struct{ }， 该 变量 是 一 个 per cpu 变 量 ， 
意味 着 针对 每 个 CPU 核心 都 会 产生 一 份 。workqueue _ 
struct 中 还 记录 了 一 个 struct worker *rescuer， 在 worker 
结构 体 中 最 终 记录 了 struct task struct *task，task 指 向 
的 任务 ， 就 是 用 于 运行 本 workqueue_struct 中 所 包含 的 
全 部 handler 函 数 的 线程 。 

struct cpu_workqueue_struct 中 记录 了 一 个 struct 
global суд *gcwq， 后 者 内 部 又 记录 了 一 个 struct list_ 
head worklist，worklist 是 一 个 链表 ， 其 挂 接 了 所 有 
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注册 在 本 workqueue_struct、 本 CPU 核 心 上 
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值得 一 提 的 是 ， 内 核 在 初始 化 的 时 候 会 调用 init_ 
workqueues0， 创 建 若干 个 wqworkqueue。system_ wq = 
alloc workqueue("events", 0, 0), system long wq = alloc | 
workqueue("events long", 0, 0), system ші wq = alloc | 
workqueue("events nrt", WQ NON REENTRANT, 
0). system unbound wq = alloc workqueue ("events | 
unbound", WQ UNBOUND,WQ UNBOUND 
MAX ACTIVE), system freezable wq = аПос | 
workqueue("events freezable" WQ FREEZABLE, 0). Ж 
中 ，system_wq 被 用 作 默 认 的 workqueue。 如 果 内 核 程 
序 直接 调用 schedule_work()， 便 会 自动 将 work 提 交 到 
system_wq 中 执行 ， 其 对 应 的 worker 线 程 名 为 events。 


10.6.6 中断 线 程 化 


由 于 中 断 处 理 过 程 中 一 般 都 关闭 中 断 响应 运行 ， 
其 优先 级 非常 高 ， 此 时 系统 内 其 他 线程 代码 都 无 法 运 
行 ， 而 这 对 于 一 些 实时 操作 系统 而 言 会 带 来 不 可 预知 
性 ， 比 如 某 个 中 断 处 理 拖 了 比较 长 的 时 间 ， 而 下 一 次 
处 理 耗费 的 时 间 又 缩短 了 ， 忽 快 忽 慢 ， 这 是 RTOS 无 
法 接受 的 。 于 是 有 人 提议 将 硬 中 断 处 理 handler 也 封装 
到 内 核 线程 里 去 执行 ， 这 意味 着 整个 中 断 处 理 过 程 可 
以 被 随时 打 断 甚至 抢占 。 

其 实 早 在 图 10-194 中 大 家 就 似乎 看 出 了 端倪 ， 
request_irq0) 其 实 是 调用 了 request_ threaded пад, № 
该 函数 的 其 中 一 个 参数 为 irq_handler t thread. fn, 4 
就 是 将 被 封装 到 内 核 线程 中 的 入 口 函 数 。 而 request_ 
irq() 却 将 该 参数 设置 为 NULL (无 效 ， 也 就 是 全 0) 。 
request_threaded_irq() 内 的 关键 代码 为 : if (handler) 
{if (геад fn) return -EINVAL; handler = іга default 
primary_handler;} ， 该 代码 的 意思 是 : 如 果 调 用 者 没 
有 传递 有 效 的 handler 参 数 ， 那 么 一 定 是 传递 了 thread | 
fn 参数 ， 如 果 连 thread_fn 都 无 效 ， 那 就 报错 ; ШЖ 
thread fn 有 效 ， 则 指派 一 个 名 为 irq_default_primary__ 
handler () 的 函数 作为 handler。 所 以 request_irq() > 
request threaded іга() 2/4, thread fnJ9jNULL, 
handler 会 被 注册 为 request_irq0 所 指派 的 handler， 也 就 
是 设备 驱动 程序 指定 的 handler。 

要 想 实现 线程 化 的 中 断 ， 则 驱动 程序 必须 直接 
调用 request_threaded_irq()， 同 时 必须 传递 有 效 的 
thread_ 血 指针 参数 ， 也 可 以 传递 handler 参 数 但 是 不 必 
须 ， 因 为 函数 内 部 会 指派 一 个 特殊 handler， 不 管 是 自 
己 指派 还 是 用 系统 默认 的 ， 该 handler 函 数 必须 return 
IRQ_WAKE_THREAD， 这 也 是 irq_default_primary_ 
handler() 内 部 的 唯一 语句 。 之 所 以 这 样 做， 是 因为 在 
如 图 10-197 所 示 的 handle_ irq event percpu0) 函 数 中 ， 
首先 执行 res = action->handler(irq, action->dev_id)， 
如 果 handler 是 非 线程 化 的 ， 则 其 处 理 完 后 必须 返回 
IRQ_HANDLED， 而 如 果 handler 是 线程 化 的 〈 自 定义 
或 者 系统 默认 指派 的 ) 其 返回 值 必然 为 IRQ_WAKE - 
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THREAD。 

所 以 ，handle irq event percpu(0) 函 数 接着 会 判断 
res 的 值 ， 如 果 为 IRQ_WAKE_THREAD， 则 表明 该 中 
断 对 应 的 handler 被 封装 到 了 内 核 线程 中 ， 则 将 res 值 改 
为 IRQ_HANDLED， 然 后 接着 调用 irq_wake_thread() 
来 唤醒 irq_thread 线 程 来 最 终 执行 该 handler。 那 么 irq_ 
thread 当 初 是 怎么 被 创建 的 呢 ? 

在 图 10-194 中 的 request_ threaded па) Я Я r 
. setup_irq0， 后 者 执行 t = kthread create(irq thread, 
new, "irq/%d-%s", irq,new->name) 将 irq_thread0 注 册 为 
名 为 “irq/%d-%s” 线 程 的 入 口 函数 ， 然 后 执行 Lew- 
>thread = t (其 中 new 为 调用 者 传递 进来 的 irqaction 
结构 体 参数 ) ， 将 新 创建 的 内 核 线程 的 task_struct 登 
记 到 irqaction 结 构 体 中 。irq_wake_thread() 中 会 执行 
wake_up_process(action->thread)，action->thread 便 是 
刚才 被 创建 的 内 核 线 程 的 task_struct。 

__setup_irq() 中 还 会 调用 irq_setup_forced_ 
threading() 函 数 ， 该 函数 内 部 会 判断 当前 系统 是 否 被 
配置 为 采用 强制 线程 化 中 断 ， 如 果 是 ， 再 判断 驱动 程 
序 注册 时 是 否 明确 给 出 了 thread_ 血 ， 如 果 没 有 ， 这 表 
明了 驱动 程序 依然 想 使 用 传统 中 断 方式 ， 则 将 驱动 程 
序 提交 的 handler 函 数 强 制 赋值 给 irqaction 结 构 体 中 的 
thread 血 字段 ， 然 后 将 handler 字 段 赋值 为 irq_default_ 
primary_handler() 默 认 的 handler。 而 这 一 切 对 于 驱动 
程序 来 讲 是 不 可 知 的 ， 如 图 10-214 所 示 。 
static void irq setup forced threading(struct irqaction *new) 
Ç if (!force_irqthreads) 

1€ (Tew-yflags & (IR. МО THREAD | IWQF_PERCPU | TRQF_ONESHOT)) 
gm xem 
керы е pisce еј 
new-»handler = irq default primary, handler; 


) 
) 


图 10-214 ”强制 中 断 线程 化 


我 们 来 看 看 irq_thread() 的 实现 ， 如 图 10-215 
所 示 。 其 首先 判断 当前 是 否 被 配置 为 强制 线程 化 
中 断 ， 如 果 是 ， 则 将 handler_fn 赋 值 为 irq_forced_ 
thread 和 铝 函数 指针 ， 如 果 不 是 则 赋值 为 irq_thread_ fn 
函数 指针 。 

如 图 下 方 所 示 ， 这 两 个 函数 内 部 其 实 都 会 调 
用 action->thread_fn 从 而 最 终 执行 驱动 程序 注册 的 
handler， 但 是 区 别 在 于 : irq_forced_thread_fn0 函 数 执 
行 handler 之 前 会 调用 local bh disable0 来 禁止 softirq/ 
tasklet 的 调度 执行 ， 这 意味 着 ， 一 旦 action->thread fn 
执行 期 间 收 到 了 外 部 中 断 且 激活 了 软 中 断 ， 这 个 软 中 
断 也 无 法 被 立即 执行 (反正 已 经 被 激活 了 ， 后 续 总 有 
机 会 被 执行 》， 而 是 直接 返回 ， 这 样 就 可 以 尽快 地 让 
被 中 断 的 thread_ 血 继续 执行 。 而 irq_thread_fn0 函 数 却 
并 不 禁止 软 中 断 的 执行 ， 所 以 其 被 中 断 之 后 可 能 会 
经 过 更 长 时 间 才 能 继续 返回 执行 thread 名。 这 种 设计 
的 意义 在 于 : 在 驱动 采用 传统 方式 注册 handler 却 被 内 
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while (11га wait for interrupt(action)) T 
irq thread check affinity(desc, action); 
atomic inc(&desc-»threads active); 
raw spin lock irq(&desc-»lock); 
if (unlikely(iragd іга disabled(&desc-»irq data))) ( 
desc-»istate |- IRQS PENDING; 
raw spin unlock irq(&desc-»lock); 
) else { 
raw spin unlock irq(&desc-»lock); 
— if (force irqthreads 8 test bit(IRQTF FORCED THREAD, 一 handler fn(desc, action); 

Baction-»thread flags)) wake = atomic dec and test(&desc-»threads active); 
handler fn = іга forced thread fn; if (м M && waitqueue active(&desc-»wait for threads))| 
else ke up(&desc-»wait for threads); ) 

—Phandler fn = іга thread fi irq finalize -oneshot (desc, action, true); 
— sched, setscheduler(current, SCHED FIFO, &param); current->irqaction = NULL; 
current->irqaction = action; return 0; 
} ч end іга thread » 


[static int irq thread(voia *data) 
К 


static const struct sched param param = ( 
.sched priority = MAX USER RT PRIO/2, 


struct irgaction "action = data; 

struct irq desc "desc = irq to desc(action-»irq); 

void (*handler fn)(struct іга desc *desc, struct irqaction *action); 
int wake; 


while (lirq wait for interrupt(action)) ( 


static voia inq forced thread fn(struct ira desc *desc]:tatic void irq thread fn(struct іга desc *desc] 
struct irgaction *action) ti tion *acti 
ТРЕ struct irgaction *action) 
—Paction-»thread fn(action-»irq, action-»dev id); 
ага finalize oneshot(desc, action, false); 
local bh enable(); 


—*action-»thread fn(action-»irq, action-»dev id); 
irq finalize oneshot(desc, action, false); 


B } 
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核 强 制 转换 为 线程 化 中 断 时 ， 原 本 驱动 程序 期 待 其 
handler 会 以 最 快速 度 执行 完毕 ， 没 想到 却 被 线程 化 了 
(可 能 会 被 挂 起 、 中 断 ) ， 所 以 为 了 弥补 被 拖延 的 时 
间 ， 禁 止 了 软 中 断 ，handler 执 行 完 再 使 能 软 中 断 。 而 
如 果 驱 动 主动 使 用 线程 化 中 断 注册 函数 注册 handler， 
则 表明 驱动 开发 者 明确 知道 其 中 断 处 理 流程 会 被 中 
断 ， 可 能 会 被 拖 后 不 可 预知 的 时 间 处 理 ， 所 以 内 核 也 
不 就 不 对 其 进行 补偿 ， 不 禁止 软 中 断 了 。 如 表 10-3 所 
示 是 各 种 中 断 方式 说 明 。 


10.6.7 ”系统 的 驱动 力 


试想 一 下 ， 用 户 程序 代码 、 内 核 程序 代码 ， 它 
们 无 非 就 是 一 堆 躺 在 内 存 中 的 函数 而 已 。 是 谁 驱动 整 
个 系统 动态 运行 的 ? 当然 是 线程 。 线 程 从 入 口 进入 执 
行 的 那 一 刻 就 永 不 停歇 ， 用 户 态 执行 系统 调用 后 ， 用 
户 态 代 码 暂停 执行 ，CPU 转 去 执行 内 核 态 代码 。 而 系 
统 内 可 能 有 成 千 上 万 个 执行 线路 ， 如 果 将 时 间 冻 住 的 
话 ， 这 些 线程 可 能 有 的 正 处 于 用 户 态 运行 用 户 代码 ， 
有 的 则 正 处 于 内 核 态 运行 内 核 代 码 ， 而 有 的 则 处 于 一 
种 更 特殊 状态 ， 正 在 运行 中 断代 码 ， 也 算是 运行 内 核 
代码 吧 ， 但 是 该 线程 是 被 强行 打 断 后 一 下 子 到 了 一 个 


异 度 空间 (中 断 上 下 文 ) 去 转 了 一 圈 又 回来 了 ， 或 者 
临时 回 不 来 了 〔 被 抢占 切换 到 其 他 线程 了 〉。 

线程 是 原始 的 驱动 力 ， 源 源 不 断 地 提供 着 力量 ， 
但 是 线程 只 会 往 一 个 方向 发 力 并 且 自 始 至 终 不 变 ， 这 
样 其 他 线程 就 无 法 运行 。 所 以 中 断 则 是 一 种 制衡 力 ， 
将 驱动 力 横向 化 均 摊 在 多 个 线程 上 。 

不 要 把 操作 系统 内 核 看 成 是 某 种 可 以 主动 做 什么 事 
情 的 实体 ， 它 完全 靠 线程 + 中 断 来 驱动 ， 它 即便 想 主动 
做 点 儿 事情 ， 也 需要 自己 创建 内 核 线程 ， 用 线程 来 驱动 
自身 。 用 户 态 和 内 核 态 代码 是 被 绑 在 一 条 线 上 的 ， 联 动 
的 ， 而 不 是 各 自 独立 的 ， 用 户 态 代码 系统 调用 之 后 ， 自 
己 就 卡 在 那 了 ， 内 核 态 接力 棒 接 过 去 继续 执行 ， 然 后 返 
回 用 户 态 继续 ， 此 时 内 核 态 代码 就 卡 在 那 了 ， 当 然 ， 其 
他 线程 也 可 能 同时 正在 调用 这 段 内 核 代码 。 
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时 钟 就 像 计 算 机 系统 的 心跳 。 外 部 clock 信 号 为 数 
字 电 路 提供 心跳 ， 而 软件 的 运行 ， 也 需要 在 高 维度 上 
需要 一 个 心跳 。 比 如 用 于 任务 调度 、 闹 钟 定时 任务 等 
需求 。 在 计算 机 系统 发 展 史 上 ， 出 现 了 多 种 不 同 种 类 


表 10-3 ———— 


是 否 会 禁用 自身 的 其 他 实例 


是 否 会 比 一 般 的 任务 具有 更 高 优先 级 


一 一 — — KThread 
是 否 会 禁用 所 有 中 断 ала 


是 否 会 与 ISR 运 行 在 同一 个 处 理 器 上 
同一 个 处 理 嚣 上 是 否 可 以 运行 多 于 一 个 实例 


同样 的 实例 是 否 可 以 同时 运行 在 多 个 CPU 上 


是 否 会 有 完全 的 上 下 文 切换 
是 否 可 休眠 


是 否 可 访问 用 户 空间 


的 计时 器 来 在 高 维度 上 为 软件 提供 计数 、 定 时 、 周 期 
性 中 断 功 能 。 


10.7.1 Жаныш 


计算 机 系统 其 实 是 个 表 哥 ， 前 后 以 及 同时 带 着 
多 块 不 同 种 类 样式 功能 的 表 ， 虽 然 冬 瓜 哥 并 不 爱好 钟 
表 收 藏 ， 只 爱 研究 这 些 事物 中 所 蕴含 的 精妙 机 构 和 本 
质 ， 但 是 还 是 要 向 读者 隆重 展示 表 哥 的 收藏 。 
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Real Time Clock 于 1984 年 被 IBM 在 其 PC 上 引入 ， 
是 老 系统 和 新 系统 上 都 具有 的 一 种 表 ， 其 利用 主板 上 
的 纽扣 电池 供电 ， 即 便 系统 关机 后 ，RTC 依 然 在 后 台 
计时 。Linux 下 的 /dev/rtc 路 径 对 应 的 就 是 RTC 设 备 ， 
该 设备 有 对 应 的 IO 地 址 (0x70 和 0x71) ， 可 以 利用 
这 两 个 IO 地 址 进行 读 出 /更 改 时 间 值 等 操作 ， 具 体 是 
先 将 要 操作 的 寄存 器 号 偏 移 量 写 入 0x70 地 址 ， 然 后 再 
将 对 应 寄存 器 的 控制 字 写 入 到 0x71 地 址 即 可 ，RTC 会 
将 收 到 的 控制 字 写 入 到 对 应 偏 移 量 的 寄存 器 中 。 

RTC 一 般 会 被 连接 到 32.768 kHz 频率 的 晶振 时 钟 
源 上 。 如 图 10-216 所 示 ， 老 式 的 RTC 是 一 块 独立 的 芯 
片 + 电 池 + 晶 振 的 组 合 模块 ， 或 者 有 些 设计 将 RTC 与 
BIOS ROM 集 成 到 同一 个 芯片 内 。 不 过 ， 在 最 新 的 系 
统 中 ，RTC 已 经 被 集成 到 了 1/O 桥 内 部 ， 纽 扣 电池 则 
依然 位 于 主板 上 ， 给 LO 桥 内 的 RTC 模 块 供电 。RTC 的 
中 断 信 号 被 接 入 IRQ#8 上 “不管 是 用 8259 PIC 还 是 IO 
APIC， 都 接 到 它们 的 8 号 中 断 管 脚 上 ， 内 核 的 irq_desc[ | 
序号 也 是 8。 在 图 10-173 和 图 10-175 中 的 中 断 列 表 中 可 
以 看 到 IRQ8 是 从 IO APIC 上 报 上 来 的 ， 名 为 rtc) 。 

RTC 除 了 可 以 用 于 记录 系统 时 间 之 外 ， 还 可 以 用 
来 产生 周期 性 的 中 断 ， 是 可 编程 的 。 其 产生 频率 的 
范围 一 般 在 2~32 768Hz 之 间 ， 但 是 一 般 常 用 系统 中 
RTC 的 最 高 中 断 发 生 频 率 上 限 被 限制 在 8192Hz， 而 默 
认 的 中 断 发 生 频 率 为 1024Hz， 默 认 不 发 出 中 断 ， 但 是 
可 以 将 RTC Status Register B 的 位 6 置 为 1 来 使 能 其 发 
出 中 断 。 可 以 将 RTC Status Register A 的 低 4 位 配置 为 
任意 值 从 而 改变 周期 性 中 断 发 生 频 率 ，32.768kHz >> 
(4 位 值 -D)= 中 断 频率 ， 该 4 位 默认 值 为 0110 (6) ， 所 
以 默认 中 断 频 率 为 32.768kHz 右 移 5 位 ， 也 就 是 除 以 25 
(2) ， 为 kHz， 也 就 是 1024Hz;， 最 大 右 移 位 数 为 
1111b (15) -1=14， 此 时 中 断 频率 为 2Hz， 该 4 位 的 值 
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不 能 为 1 或 者 2， 否 则 将 会 导致 硬件 错误 ， 所 以 其 最 小 
值 为 3， 此 时 32.768kHz 右 移 3-1=2 位 ， 结 果 为 8kHz， 
这 就 是 最 大 中 断 频 率 了 。 

如 图 10-217 所 示 为 某 RTC 对 应 的 寄存 器 功能 一 览 。 
RTC 可 以 被 设置 为 One-Shot 〈 一 次 性 ) 中 断 模 式 ， 也 就 
是 设置 一 个 数值 ， 并 将 其 写 入 RTC 内 部 的 时 钟 日 历 寄 存 
器 中 的 Alarm 相 关 字 段 ， 然 后 使 能 状态 寄存 器 B 中 的 AIE 
标志 位 。 当 RTC 的 当前 时 间 达 到 设 定 值 时 ， 将 触发 一 次 
中 断 。 但 是 这 种 定时 触发 中 断 的 精度 只 能 做 到 1 秒 。 

其 实 ， 最 高 8kHz 的 中 断 频率 〈 周 期 122us) ， 足 
够 内 核 用 于 线程 调度 等 使 用 了 ， 但 是 1 秒 精度 的 非 周 
期 性 定时 中 断 却 根本 无 法 满足 一 些 程序 的 需求 ， 比 如 
有 些 程序 要 求 睡眠 若干 微 秒 后 被 唤醒 ， 此 时 RTC 无 能 
为 力 ， 需 要 更 高 精度 的 定时 器 。 轮 到 PIT 出 场 了 。 


10.7.1.2 PIT 


老 主板 上 基本 都 有 一 个 PIT (Programmable 
Interval Timer) ， 最 普遍 的 是 Intel 8253/8254/8254- 
2 PIT 芯片 。 其 通过 IRQ0 (注意 : 一 般 连 接 到 I/O 
APIC 的 管 脚 #0， 同 时 irq_desc[ ] 也 被 申请 为 #0， 但 是 
vector 并 不 为 0。 所 以 在 图 10-173 和 图 10-175 中 的 中 
断 列 表 中 可 以 看 到 IRQ0 是 从 I/O APIC 上 报 上 来 的 ， 
名 为 timer， 指 的 就 是 PIT) 产生 周期 性 或 者 One- 
Shot 定时 中 断 信号 ，I/O 端 口 地 址 是 0x40 一 0x43 。 
8254 可 以 支持 最 大 到 8MHz 的 时 钟 源 驱动 ，8254-2 
则 可 以 到 10MHz， 但 是 在 典型 的 设计 方案 中 ， 一 般 
采用 的 是 1.193 182 MHz 的 晶振 源 ， 该 信号 由 当时 被 
广泛 用 于 电视 中 的 14.31818MHz 唱 振 信号 通过 12 倍 
分 频 而 来 。 

如 图 10-218 所 示 ，8254 PIT 内 部 有 三 个 独立 的 16 位 
的 计数 器 ， 可 以 输入 三 路 独立 的 时 钟 信号 ， 但 是 通常 
都 是 输入 同 源 同 频 时 钟 信号 。 每 个 计数 器 可 以 被 设置 
为 6 种 运行 模式 中 的 一 种 ， 这 些 模式 中 包含 周期 性 产 
生 中 断 的 以 及 One-Shot 中 断 模式 。 在 周期 性 中 断 模式 
下 ， 将 16 位 计数 器 初 值 设 置 为 全 0 的 话 ， 那 么 PIT 将 其 
视 为 65 536, fEl.193182 MHz 时 钟 驱动 下 ， 每 秒 会 产 
生 18.2Hz 的 周期 性 中 断 ， 而 如 果 将 计数 器 值 设置 为 1 的 
话 ， 为 非法 ， 因 为 无 法 满足 内 部 电路 的 特殊 要 求 ， 至 
少 要 设置 为 2， 此 时 会 产生 596.591 kHz 的 定期 中 断 〈 如 
此 高 频 的 中 断 会 导致 系统 运行 效率 太 低 ， 没 有 实际 意 
义 ) 。 对 于 One-Shot 模 式 ， 计 数 器 的 初 值 可 以 被 设置 为 
1， 此 时 为 最 大 精度 ，1s/1 193 182Hz=828ns， 这 种 精度 
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已 经 比较 高 了 ， 可 以 满足 绝 大 多 数 场景 
需求 。 

如 图 右上 角 所 示 ， 在 早期 的 BM 
PC 兼容 机 系统 中 ， 将 计数 器 0 用 于 产生 
周期 性 中 断 〈 当 时 的 操作 系统 一 般 将 其 
设置 为 18.2Hz 的 中 断 频 率 ) ; 将 计数 器 
1 用 于 对 DRAM 的 刷新 触发 信号 ; 将 计 
数 器 2 的 输出 连接 蜂 鸣 器 (可 以 编程 让 
蜂 鸣 器 奏 电 子 乐 ， 或 者 使 用 PWM 方式 


更 新 结束 中 断 请 求 。 


NN 
NNNN у 
ЕНТ 拼凑 出 低 精度 模拟 信号 ) 。 
NOSXTTINNN š t емы 
АРЕН 8254 PIT 还 可 以 充当 下 列 角色 : 
А Real time clock. Event-counter, Digital 
2 
БЕРЕРІ EEe,,,, One-Shot、Programmable rate generator、 
ЕЕЕР ЕЕЕ БЕ 55 Square wave generator, Binary rate 
05485 ем оса 


multiplier, Complex waveform generator, 
Complex motor controller 等 。 

一 般 来 说 ， 系 统 中 会 同时 存在 RTC 
和 PIT， 前 者 一 般 只 用 于 记录 系统 日 历 
时 间 (又 称 为 Time on the Wall， 墙 上 时 
间 ) 。Linux 启 动 时 会 读 取 RTC 的 值 作 
为 基准 系统 时 间 ， 后 续 并 不 再 依赖 RTC 
来 获取 日 历时 间 ， 而 是 利用 PIT 产生 的 
一 定 频率 的 中 断 信号 来 记录 增 量 时 间 ， 
从 而 变相 得 到 日 历时 间 ， 将 其 保存 在 内 
存 的 变量 中 ， 这 样 就 可 以 更 快 得 到 当前 
日 历时 间 ， 而 不 是 每 次 都 去 访问 RTC 的 
IO 地 址 〈 非 常 慢 ) 来 获取 。OS 还 可 以 
择机 把 自主 计算 的 当前 系统 日 历时 间 写 


it [ 3 : 0 ] 一 一 速率 选择 位 ( Rate Selection bits) ， 用 于 周 区 性 中 断 输出 。 
bit [7 ] 一 一 IRQF 标 志 ， 中断 请 求 标志 ， 当 该 位 为 1 时 ， 说 明 奇 存 器 B 中 断 请 求 发 生 。 


bit [6] 一 一 PF 标志 ， 周 期 性 中 断 标志 , 为 1 表示 发 生 周 期 性 中 断 请 求 。 
bit [ 5 ] 一 一 AF 标 志 ,告警 中 断 标志 ， 为 1 表示 发 生 告警 中 断 请 求 。 


it [4] 一 一 UF 标 志 ,更 新 结束 中 断 标志 , 为 1 


bi 


中 断 。 


Bn. 


图 10-217 RTC 内 部 寄存 器 偏 移 量 和 功能 一 览 


bit [7 ] — АРБ ( Update in Progress) ， 为 1 表示 RTC 正 在 更 新 日 历 


青 存 器 组 中 的 值 , 此 时 日 历 奇 存 器 组 是 不 可 访问 的 ( 此 时 访问 它们 将 得 到 一 


时 精度 再 高 ， 访 问 的 慢 ， 也 会 降低 甚至 
低 效 其 精度 。 该 HPET 出 场 了 。 


10.7.1.3 HPET 


HPET (High Precision Event Timer) 
是 Intel 和 Microsoft 在 2005 年 推出 并 集成 
在 系统 IO 桥 内 部 的 一 种 高 精度 定时 器 。 
其 时 钟 源 输入 被 提升 至 14.318 MHz， 精 
度 可 以 达到 小 于 100ns， 周 期 性 中 断 产生 
频率 可 以 超过 10MHz (无 意义 ， 更 需要 
的 是 One-Shot 精 度 的 提高 )。HPET 采 用 
MMIO 方 式 将 其 各 种 寄存 器 暴露 在 系统 
地 址 空间 中 ， 加 快 了 访问 速度 。 


; 
| 16 员 
Š ME 
Е 1 БЕК E 
Бат m 回 到 RTC 里 ， 比 如 通过 网 络 对 时 之 后 。 
3 $ 所 以 RTC 的 时 间 值 可 能 会 不 同 于 OS 自己 
j Ë i2. RES - 记录 的 时 间 值 。 
5 Я Де қ š 不 过 ，PIT 也 有 几 个 缺点 ，828ns 的 
& i EREA + & One-Shot 中 断 精度 对 于 一 些 有 极端 需求 
< aids : < 的 场景 还 是 不 够 ， 其 次 ， 也 是 最 关键 的 
i ELLEN [ 8 一 点 ，PIT 的 寄存 器 访问 太 慢 ， 因 为 只 
> ТЕ оо. #56 4 能 通过 IO 地 址 访问 《使 用 单独 总 线 而 
Ë 55 ___Е | 不 是 高 速 的 访 存 总 线 ) ， 此 时 ， 就 算计 
ж 


Sunday) 


‚ 更 新 结束 中 断 enable 标 志 ， 为 1 则 表示 每 次 日 历时 间 经 过 一 秒 则 产生 一 次 中 断 ， 为 0 则 不 产生 中 断 。 
BIOS 总 是 将 它 设置 为 0。 


一 一 SQWE 标 志 ， 方 波 信号 enable 标 志 。 


‚ 告警 中 断 enable 标 志 ,为 1 则 表示 到 达 告 警 时 间 后 触发 一 次 中 断 ， 为 0 则 不 产生 告 


,周期 性 中 断 enable 标 志 
一 一 24 / 12 标 志 ， 用 来 控制 hour 奇 存 器 ，0 表 示 12 小 时 制 ，1 表 示 24 小 时 制 。PC 机 BIOS 总 是 将 它 设置 为 1。 


一 一 DSE 标 志 。 


一 一 DM 标 志 ， 用 来 控制 日 历 奇 存 器 组 的 数据 模式 ，0 


---РІН 
一 一 AlE 标 志 


一 一 UIE 标 志 


g 
& 
$ 
z 
SE 
FER 
7% 
24 
= 
ЗЕ 


[4 
[3 


bit [7] 一 一 SET 标志 。 为 1 表示 RTC 的 所 有 更 新 过 程 都 将 终止 ， 用 户 程序 随后 马上 对 日 历 奇 存 器 组 中 的 值 进行 初始 化 设置 。 为 0 


表示 将 允许 更 新 过 程 继续 。 


bit [7 ] 一 一 VRT 标 志 ( Valid RAM and Time ) ， 为 1 表示 OK ,为 0 表示 RTC 已 经 掉 电 。 


bit [ 6 : 0 ] 一 一 总 是 为 0 , ЖЕУ. 


状态 Register В, (6 жшохов, іт : 
状态 Register D ， 偏 移 量 0x0D ,格式 yn 下 : 


3 
i 
i 
Ë 


01 Alai 

08 Current Month 
09 Current Year 
bit [6 

bit 

bit [0 
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ЏО port Usag 
0x40 TP 
0x41 cereo 1 pus jab Геи шли 
Ox42 Channel 2 data port (read/write) ET 
0x43 Mode/Command register (write only) 
6 5 4 3 2 1 
Selected ChanneHID | Command-ID Output Mode " Counting Mode 
00 = сто 00 = Latch 000 = one-shot level 0 = binary 
01=chn1 01 = LSB rw 001 = retriggerablo 1-BCD 
10- chn2 10 = MSB rw 010 = rate-generator 
¥5.18 бнк. 11 = LSB-MSB riw 011 = square-wave 
Те ЕЕ.) 
图 10-218 Іше! 8254 PIT 硬件 框图 以 及 寄存 器 功能 一 览 
如 图 10-219 所 示 ，HPET 内 部 其 实 结构 比较 简 HPET 支 持 MMIO 访 问 ， 其 访问 速度 相对 片 内 的 器 件 


单 ， 就 是 一 个 在 外 部 时 钟 源 驱动 下 单调 自 增 的 计数 器 
(64 位 ， 在 14.318MHz 计 数 频率 下 可 持续 运行 三 十 多 
万 年 才 达 到 最 大 值 ) ， 加 上 一 排比 较 器 ， 每 个 比较 器 
的 输入 之 一 就 是 计数 器 的 数值 信号 ， 另 一 个 输入 则 是 
被 配置 的 目标 时 间 点 数值 ， 一 旦 比较 器 发 现 计 数 器 数 
值 与 被 配置 的 数值 相等 ， 则 触发 中 断 。 中 断 信号 被 送 
入 中 断路 由 模块 送 往 系统 前 端 。 

理论 上 HPET 最 大 支持 32 个 比较 器 ， 而 实际 上 只 
实现 了 3 个 ， 其 中 ，C0 触 发 周期 性 中 断 ， 其 他 两 个 触 
发 一 次 性 中 断 。C0 内 部 有 个 加 法 器 ， 当 比较 器 触发 中 
断 时 ， 当 前 计数 值 会 被 反馈 到 加 法 器 输入 一 侧 与 所 设 
置 的 周期 值 相 加 之 后 输送 到 比较 器 的 输入 端 ， 这 样 就 
可 以 按照 所 设 定 的 周期 产生 持续 固定 频率 中 断 。 

由 于 HPET 精 度 更 高 ， 所 以 具体 设计 时 可 以 使 用 
C0 来 替换 8254 PIT 的 周期 性 中 断 ， 使 用 C1 来 替代 RTC 
的 一 次 性 中 断 。 

如 图 10-220 所 示 为 HPET 中 断路 由 的 示意 图 。 其 
中 ，ENABLE_CNF 寄 存 器 的 值 在 全 局 上 控制 HPET 
的 中 断 使 能 或 者 禁止 LEG_RT_EN 寄 存 器 的 值 控制 
HPET 是 否 替 代 PIT 和 RTC 定 时 器 (只 替代 RTC 的 定时 
器 中 断 ) 。 而 T0_FSB_EN 寄 存 器 的 值 控 制 是 否 将 中 断 
信号 直接 通过 前 端的 中 断 总 线 传递 给 CPU， 还 是 依然 
走 IO APIC 或 者 PIC 的 渠道 来 传递 。 如 果 被 配置 为 前 
者 ， 则 需要 在 Timer_N_FSB_Route Register 中 配置 中 
断 信号 发 送 的 目标 APIC ID 以 及 对 应 的 中 断 向 量 值 。 

由 于 HPET 采 用 MMIO 方 式 访问 寄存 器 ， 速 度 较 
快 ， 好 马 配 好 鞍 ， 加 上 其 高 精度 计时 ， 所 以 其 总 体 上 
使 用 起 来 的 体验 比 PIT 更 好 。 但 是 依然 无 法 满足 一 些 
最 为 苛刻 的 需求 。 该 Local Timer 出 场 了 。 


10.7.1.4 Local Timer 
上 述 介绍 的 几 种 定时 器 都 是 在 CPU 片 外 ， 纵 使 


而 言 还 是 略 慢 。 另 外 ， 对 于 多 核心 /CPU 场景 下 的 周 
WHE (Tick) 中 断 ， 需 要 把 HPET/PIT 的 中 断 信号 广 
播 到 多 个 核心 ， 对 应 的 中 断 处 理 程序 还 需要 考虑 如 
何在 广播 场景 下 应 答 IIO APIC 的 问题 ， 增 加 了 复杂 
度 。 在 后 期 的 x86 CPU 的 Local APIC 中 嵌入 了 一 个 定 
时 器 ， 被 称 为 Local Timer， 其 除了 精度 能 够 做 到 10ns 
(100MHz) 之 外 ， 由 于 其 嵌入 在 CPU 核心 内 部 ， 所 
以 访问 速度 非常 快 。 在 10.6.1.1 节 中 提 到 过 Local APIC 
Timer， 其 内 部 包含 如 图 10-221 所 示 的 关键 寄存 器 。 

Divide Configuration Register 用 于 配置 分 频 倍率 
《Local Timer 可 以 被 设计 为 使 用 CPU 内 部 总 线 频率 或 
者 核心 频率 同 频 的 时 钟 源 来 驱动 其 内 部 的 计数 器 ， 如 
果 程 序 尝试 使 用 CPUID 指 令 读 出 了 0x15 偏 移 量 处 的 信 
息 ， 则 Local Timer 会 切换 到 核心 频率 运行 ， 否 则 默认 
运行 在 总 线 频率 上 。 总 线 频率 一 般 为 1GHz 左 右 ， 视 
不 同 CPU 平台 型 号 而 定 ) 。 目 前 的 x86 CPU 都 支持 根 
据 系 统 负载 动态 升降 频 ， 以 及 可 能 会 进入 idle 模 式 从 而 
停止 内 部 一 些 耗 电 模块 的 运行 ， 所 以 Local Timer 的 时 钟 
源 频 率 就 会 不 停 变化 ， 甚 至 直接 停止 工作 。 不 过 Local 
Timer 可 以 支持 以 固定 频率 持续 运行 ， 不 受 升降 频 或 者 
省 电 状 态 的 影响 ， 使 用 CPUID 指 令 的 返回 值 中 对 应 的 
位 可 以 获知 当前 Local Timer 被 设计 为 使 用 哪 种 方式 。 

Local Timer 支 持 周期 性 和 一 次 性 中 断 的 运行 模 
式 ， 模 式 可 以 在 图 10-164 所 示 的 APIC 内 部 的 Timer 
LVT 中 对 应 条 目 字段 来 设置 。 对 于 一 次 性 中 断 ， 程 序 
在 设置 initial count 寄 存 器 为 一 个 预定 义 的 初 值 之 后 ， 
Timer 硬 件 会 将 该 值 自动 复制 到 current count 寄 存 器 然 
后 开始 自 减 ， 当 current count 寄 存 器 为 0 时 ， 和 触发 一 次 
中 断 。 对 于 周期 性 中 断 ， 当 current count 为 0 后 触发 一 
次 中 断 ， 硬 件 会 自动 将 initial count 的 值 再 次 输送 给 
current count， 所 以 可 以 重复 产生 中 断 。 


站 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 
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10.7.1.5 TSC 


然而 ，10ns 精 度 有 时 候 也 无 法 满足 需求 。 还 有 一 
招 ， 也 是 最 后 一 招 ，x86 CPU 提供 了 一 个 64 位 的 TSC 
(Time Stamp Counter) ， 该 计数 器 会 在 每 个 外 部 时 
钟 振荡 后 +1， 但 是 其 并 不 能 产生 中 断 ， 程 序 只 能 读 取 
该 寄存 器 的 值 ， 由 于 其 分 辩 率 已 经 达到 了 电路 的 最 小 
变化 单位 一 一 一 个 外 部 时 钟 振荡 周期 ， 所 以 其 精度 已 
经 达到 了 最 高 。 对 于 这 种 高 精度 的 计数 器 ， 通 过 访 存 
来 读 取 它 的 值 相 比 之 下 就 显得 太 慢 了 ， 因 为 访 存 有 时 
候 可 能 需要 数 百 个 时 钟 周期 ， 当 你 决定 读 出 其 当前 值 
时 ， 读 出 的 其 实 是 未 来 的 值 。 所 以 x86 干 脆 提 供 了 一 
条 rdtsc 指 令 来 供 程序 读 取 该 值 ， 从 而 可 以 将 误差 降低 
到 若干 纳 秒 。 


可 以 看 到 Local Timer 和 TSC 的 外 部 时 钟 震荡 频 
率 可 能 是 不 国定 的 ， 目 前 的 CPU 都 具备 跟随 系统 负 
载 情况 自动 调节 运行 频率 的 特性 ， 这 会 导致 这 两 种 
timer 的 计数 频率 也 跟随 变化 ， 甚 至 在 深度 低 功 耗 模 
式 下 Local Timer 和 TSC 会 停止 运行 。 在 最 新 的 CPU 
中 ，APIC Local Timer 和 TSC 都 支持 Constant 模 式 ， 
可 以 使 用 CPUID 指 令 查询 对 应 的 字段 来 获取 该 信 
息 。 这 样 不 管 CPU 处 于 哪个 节能 状态 ， 其 Timer 运 
行 频率 始终 不 变 。 但 是 ， 由 于 不 同 CPU 的 原生 运行 
频率 各 不 相同 ， 所 以 在 A 平 台 下 的 Timer 经 过 了 N 次 
计数 ， 与 B 平 台 下 同样 经 过 100 次 计数 ,耗费 的 时 
间 不 同 。 于 是 ， 内 核 中 的 计时 程序 就 无 所 适 从 。 所 
以 在 使 用 这 两 种 定时 器 时 ， 内 核 必须 先进 行 校准 操 
作 。 内 核 首先 设置 PIT 定时 器 ， 比 如 在 50ms 后 产生 
一 次 性 中 断 ， 然 后 将 一 个 初始 值 写 入 到 Local Timer 
的 initial counter 中 ， 经 过 比如 50ms 后 ( 可 以 通过 对 
PIT 来 编程 从 而 在 50ms 时 产生 一 次 性 中 断 ) ， 读 出 
Local Timer 的 current counter 看 看 其 被 计数 了 多 少 
次 ， 就 可 以 算出 每 秒 该 定时 器 的 计数 次 数 ， 从 而 
为 后 续 使 用 作 参 考 。 比 如 后 续 需要 利用 Local Timer 
产生 一 个 Sms 的 一 次 性 中 断 ， 而 Local Timer 每 秒 计 
数 1000 次 ， 则 需要 将 5 这 个 值 写 入 到 initial counter 
中 ， 才 会 在 Sms 后 产生 中 断 。 这 个 过 程 称 为 校准 
(Calibration) ， 对 于 TSC 也 需要 做 校准 。 

在 Intel 的 Westmere 之 前 的 CPU 中 ，TSC 和 
Local APIC Timer 类 似 ， 都 可 能 在 深度 节能 状态 下 
停止 工作 ， 此 时 内 核 会 切换 到 其 他 较 低 精 度 的 时 
钟 设备 上 ， 但 是 在 Intel Westmere 之 后 的 CPU 中 ， 
TSC 可 以 一 直 保持 运行 状态 ， 即 使 CPU 进入 了 深 
度 睡眠 状态 ， 从 而 避免 了 时 钟 设备 的 切换 。 在 多 
核心 环境 下 ， 多 个 核 的 TSC 很 难保 持 同 步 ， 会 造 
成 CPU 之 间 的 计时 误差 。Intel 最 新 的 Nehalem-EX 
CPU 已 经 可 以 确保 TSC 在 多 个 核心 以 及 CPU 片 间 
保持 同步 。 
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除了 上 述 介绍 过 的 这 些 时 钟 器 件 之 外 ，x86 平 台 
还 提供 了 一 种 APIC Power Management Timer， 篇 幅 所 
限 就 不 多 介绍 了 。 


10.7.2 ” 表 哥 的 烦恼 


表 哥 的 烦恼 在 于 它 出 门 到 底 应 该 带 哪 块 表 ， 表 哥 
期 望 有 一 块 能 够 满足 所 有 需求 的 多 功能 表 。 


10.7.2.1 软 计时 


表 哥 如 果 想 获取 当前 的 系统 时 间 ， 也 就 是 年 月 日 
时 分 秒 ， 按 理 说 只 需要 简单 地 使 用 IO 指令 访问 RIC 的 
时 间 寄 存 器 即 可 。 但 是 ， 由 于 RTC 的 精度 只 有 1s， 如 
果 某 个 日 历程 序 需要 计时 到 100ms 精 度 ， 也 就 是 每 经 
过 0.1s 就 跳 变 一 个 数字 〈 这 种 高 精度 显示 时 间 的 日 历 
程序 读者 应 该 都 见 过 ) ，RTC 这 块 表 就 无 法 满足 了 。 
另外 ， 由 于 RTC 只 能 通过 LO 指令 而 无 法 通过 访 存 来 访 
问 其 寄存 器 ， 访 问 速度 过 慢 ， 也 不 理想 。 所 以 这 块 表 
只 能 当成 老 古董 来 鉴赏 了 ， 不 过 由 于 它 自 带 发 条 (有 
电池 后 备 ) ， 仍 然 具 有 关键 价值 ， 也 就 是 系统 开机 时 
可 以 读 出 它 的 时 间作 为 基准 参考 。 虽 然 现在 有 网 络 对 
时 机 制 ， 但 如 果 系 统 没有 联网 呢 ? 

看 来 必须 使 用 更 高 精度 的 PIT 了 ， 但 是 PIT 并 不 具 
备 自行 记录 系统 时 间 的 功能 ， 其 内 部 只 是 简单 的 几 个 
计数 器 而 已 。 表 哥 灵 机 一 动 ， 想 到 了 一 个 办 法 。 如 果 
开机 后 读 取 RTC 的 时 间作 为 基准 ， 然 后 将 PIT 中 某 个 
定时 器 设 定 为 每 隔 10ms 中 断 一 次 ， 然 后 注册 一 个 中 断 
handler， 该 handler 每 次 执行 就 把 专门 用 于 记录 系统 时 
间 的 变量 +10ms， 这 样 的 话 系统 时 间 的 流逝 粒度 就 可 
以 变 为 10ms， 那 么 满足 刚才 那个 按 100ms 精 度 计 时 的 
需求 就 不 在 话 下 了 。 表 哥 可 以 提供 一 个 函数 比如 get_ 
timeofday()， 其 内 部 就 是 读 取 系统 时 间 变 量 ， 并 做 一 
定 的 格式 化 输出 即 可 。 

也 就 是 说 ， 表 哥 只 能 采取 软 计 时 的 方式 来 更 精 
确 、 灵 活 地 维护 系统 时 间 。 


10.7.2.2 软 Timer 


再 来 看 上 面 那个 日 历程 序 的 需求 ， 程 序 现 在 可 
以 调用 get_timeofday() 得 到 精确 到 10ms 的 系统 时 间 ， 
但 是 如 果 将 该 函数 放置 在 一 个 死 循 环 内 部 不 断 地 调 
用 来 刷新 屏幕 上 的 数字 的 话 ， 的 确 可 以 实现 屏幕 上 
的 系统 时 间 每 隔 10ms 跳 动 一 次 ， 但 是 非常 浪费 资 
源 ， 因 为 哪怕 在 两 次 10ms 中 断 期 间 ， 该 循环 也 会 执 
行 数 百 上 千 次 ， 而 得 到 的 时 间 却 没 变化 ， 此 时 CPU 
利用 率 100%。 更 高 效 的 实现 ， 是 该 程序 向 表 哥 申请 
一 个 100ms 的 定时 器 (Timer) ， 并 登记 一 个 handler 
(用 于 将 自己 唤醒 ) ， 然 后 将 自己 休眠 。 表 哥 将 
100ms 值 写 入 硬件 中 的 一 个 空闲 计数 器 开始 倒计时 ， 
当 收 到 该 计数 器 的 中 断 信 号 时 ， 表 哥 执 行 该 Timer 
对 应 的 handler 将 该 任务 唤醒 ， 唤 醒 之 后 该 任务 向 
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屏幕 打印 新 数字 〈 当 然 ， 在 打印 之 前 ， 程 序 可 以 读 
一 下 系统 时 间 看 看 是 不 是 真 的 到 了 对 应 的 时 间 ， 这 
个 唤醒 后 再 次 主动 复查 唤醒 条 件 的 机 制 前 文中 也 提 
到 过 ) 。 

但 是 有 一 点 却 让 表 哥 比较 为 难 ，PIT 上 一 般 只 有 #0 
号 计数 器 可 用 ， 其 他 两 个 其 实 是 废 掉 的 ， 因 为 一 般 主 
板 只 把 #0 计数 器 的 中 断 信 号 连接 到 中 断 控制 器 上 。#0 计 
数 器 被 表 哥 配置 为 每 10ms 产 生 一 次 中 断 ， 并 更 新 系统 时 
间 ， 也 就 是 被 软 计时 给 占用 了 。 此 时 表 哥 真希 望 有 一 块 
能 有 几 个 甚至 几 十 个 独立 计数 器 的 表 ， 这 样 就 可 以 给 几 
十 个 程序 分 别 定 几 十 个 闹钟 了 。 上 文 所 述 的 HPET 中 倒 
是 有 三 个 计数 器 ， 或 许可 以 拿 来 一 用 ? 表 哥 又 一 想 ， 非 
长 久之 计 ， 如 果 系 统 内 有 一 千 个 任务 都 要 申请 闹钟 ， 岂 
不 是 需要 一 个 拥有 数 千 个 计数 器 的 表 。 

表 哥 灵机 一 动 ， 想 到 了 一 个 绝妙 的 办 法 。 既 然 
每 次 中 断 能 去 更 新 系统 时 间 ， 为 何不 能 顺手 拘 表 算 
算 某 个 闹钟 是 否 到 时 了 呢 ? 假设 有 一 千 个 闹钟 被 申 
请 了 ， 那 就 挨个 晤 一 眼 是 否 当前 时 间 到 达 了 该 闹钟 
所 登记 的 时 间 ， 到 期 则 调用 其 登记 的 handler。 这 主 
意 棒 极 了 ! 

所 以 ， 表 哥 规定 ， 任 何人 想 申 请 闹钟 ， 可 以 ， 
先 填 一 个 闹钟 表 登 记 你 要 多 长 时 间 倒 计时 、 时 间 到 了 
执行 哪个 handler 等 信息 。 然 后 表 哥 维护 一 个 全 局 的 队 
列 ， 将 所 有 闹钟 登记 表 串 起 来 。 每 次 中 断 来 临时 ， 在 
做 完 一 些 必 要 的 处 理 之 后 ， 接 着 到 该 队列 中 挨个 查看 
是 否 到 达 了 该 闹钟 所 要 求 的 时 间 。 

这 样 ， 只 需要 在 PIT 的 #0 计数 器 上 配置 10ms 
的 周期 性 中 断 ， 就 可 以 既 完 成 系统 计时 (当然 还 
需要 顺带 执行 其 他 一 些 函 数 比 如 前 文中 介绍 过 的 
scheduler_tick() 等 ) ， 又 可 以 满足 任意 数量 的 闹钟 
申请 。 

有 个 担忧 在 于 ， 假 设 真 的 有 大 量程 序 注册 了 大 
量 的 定时 器 handler， 如 果 在 10ms 内 ， 处 理 不 完 这 么 
多 hanlder 怎 么 办 ? 此 时 就 可 能 丢失 中 断 ， 因 为 硬 中 
断 处 理 期 间 是 需要 关中 断 响应 的 ， 如 果 来 不 及 处 理 
下 一 次 中 断 ， 在 第 三 次 中 断 到 来 时 响应 了 ， 那 么 第 
二 次 就 丢失 了 。 所 以 ， 硬 中 断 handler 务 必 简 洁 ， 对 
于 定时 器 handler， 它 所 做 的 工作 一 般 非 常 简单 ， 那 
就 是 唤醒 当初 设 定 这 个 定时 器 的 任务 ， 这 个 动作 一 
般 很 快 结束 。 对 于 现代 的 CPU 来 讲 ， 处 理 日 常 场景 
基本 没有 问题 。 
10.7.2.3 ЖТіск 


表 哥 ， 申 请 一 个 闹钟 ，100ns 后 叫 醒 我 ! 好 ， 
等 我 换 上 HPET 牌 表 ， 后 者 调节 起 来 更 快 ， 精 度 也 
更 高 。 表 哥 把 HPET 配 置 成 每 10ns 产 生 一 次 周期 性 中 
断 ， 因 为 只 有 配置 为 小 于 100ns 的 周期 性 中 断 ， 才 能 
够 识别 出 100ns 的 粒度 。 那 么 ， 问 题 来 了 ，10ns 期 间 ， 
1GHz 频 率 的 CPU 核心 也 只 能 执行 若干 条 指令 ， 而 每 
10ns 就 被 中 断 一 次 ， 这 系统 就 卡 的 没 法 用 了 。 


ЖЕНИ ТТ, НА, БАЛ? 西瓜 弟 在 
一 旁 给 出 了 个 主意 ; 表 哥 ， 用 HPET 表 ，Timer#0 依 然 
设置 为 10ms 周 期 性 中 断 ， 把 Timer#1 设 置 为 One-Shot 
模式 ， 写 入 100ns 值 ， 这 样 ， 两 个 Timer 各 自 中 断 各 自 
№! 表 哥 表示 不 妥 ， 如 果 有 一 千 个 任务 都 申请 高 精度 
的 闹钟 ， 那 表 哥 这 些 表 里 哪 一 块 也 没有 几 千 个 计数 
器 ， 都 无 法 满足 需求 ， 所 以 绝 不 能 依靠 硬 闹钟 。 看 来 
马甲 还 是 不 靠 谱 。 

在 一 旁 深 思 熟 虑 的 冬瓜 哥 给 表 哥 出 了 个 主意 : 
表 哥 ， 还 是 用 HPET 的 Timer#0 (或 者 APIC Local 
Timer) ， 但 是 别 用 周期 性 模式 了 ， 直 接 用 One-Shot 
模式 ， 那 个 程序 不 是 要 申请 100ns 后 唤醒 它 么 ， 那 你 
就 直接 配置 100ns 后 让 HPET 产 生 一 次 性 中 断 ， 然 后 唤 
醒 那 个 任务 就 是 。 表 哥 一 脸 茫 然 : 然后 呢 ? 下 一 次 中 
断 就 不 再 到 来 了 ， 没 法 计时 了 啊 。 冬 瓜 哥 微笑 道 : X 
键 就 在 这 里 ， 你 需要 自行 向 闹钟 队列 里 插入 一 个 10ms 
的 闹钟 ， 如 果 该 闹钟 到 时 ， 则 触发 系统 时 间 计 时 、 
scheduler tick0) 等 日 常 工作 ， 然 后 重新 再 将 该 10ms 阅 
钟 挂 入 队列 ， 喂 给 它 10ms 的 时 间 (或 者 给 它 任 意 你 想 
给 的 时 间 ) ， 这 样 不 断 重复 ， 不 就 和 10ms 周 期 性 中 断 
一 样 了 么 ? REHN: Wi, ХАЖ ГІН? 冬瓜 哥 ， Я 
正 都 是 靠 程序 执行 的 ， 配 置 一 下 HPET 所 需要 的 工夫 
可 以 忽略 不 计 的 。 

这 样 ， 既 不 需要 让 HPET 或 者 Local Timer 产 生 太 
细 粒 度 的 周期 性 中 断 ， 又 能 随时 配置 任何 粒度 的 定时 
值 给 HPET/Local Timer。 比 如 ， 有 程序 A 和 B 分 别 申请 
了 一 个 100ns 和 一 个 200ns 的 闹钟 ， 那 么 表 哥 在 最 近 的 
一 次 中 断 到 来 之 后 ， 将 100ns 喂 给 HPET/Local TImer, 
让 它 在 100ns 后 中 断 ， 中 断后 ， 唤 醒 程序 A， 同 时 ， 
表 哥 计算 出 程序 B 还 差 100ns 到 时 ， 于 是 再 喂 给 HPET/ 
Local TImer 100ns， 再 次 中 断后 ， 唤 醒 程序 B。 

表 哥 表示 还 是 冬瓜 哥 靠 谱 ! 这 种 机 制 可 以 被 称 为 
软 Tick/ 软 咬 哄 。 可 以 看 到 ， 软 吐 哄 其 实 是 为 了 满足 高 
精度 的 定时 器 闹钟 而 出 现 的 一 种 机 制 。 基 于 One-Shot 
模式 的 软 Tick 的 灵活 还 表现 在 ， 比 如 任务 调度 器 可 以 
动态 设置 时 间 片 长 短 ， 而 不 必 忍 受 固定 频率 的 中 断 的 
到 来 。 

表 哥 继续 思考 ， 如 果 同 时 启用 两 块 表 ， 比 如 用 
HPET 的 Periodic 模 式 产生 周期 性 10ms 或 者 再 精细 一 些 
lms 的 中 断 用 于 计时 和 scheduler_tick() 之 类 的 日 常 工 
作 ， 而 用 Local TImer 的 One-Shot 模 式 处 理 其 他 程序 申 
请 的 高 精度 闹钟 ， 是 否 可 以 呢 ? 没有 什么 不 可 以 ， 最 
终 都 是 设计 上 的 考量 。Linux 内 核 并 没有 这 么 做 ， 而 
是 像 如 图 10-222 所 示 一 样 ， 把 周期 性 Tick 与 零散 的 一 
次 性 Timer 混 在 一 起 ， 统 一 作为 软 Timer 处 理 。 


10.7.2.4 ”单调 时 钟 源 


仔细 思考 上 述 软 Tick 方 案 就 会 发 现 ， 在 这 种 模式 
下 的 系统 时 间 会 变 慢 。 上 述 的 那个 模拟 周期 性 Tick 的 
Timer 每 次 重新 给 HPET 提 供 比如 10ms 的 倒计时 时 间 ， 
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其 并 没有 将 代码 运行 本 身 耗 费 的 时 间 算 进去 。 假 设 
10ms 后 HPET 产 生 一 次 性 中 断 ， 中 断 服务 程序 的 运行 假 
设 耗费 了 1 un s， 然 后 又 给 HPET 配 置 了 10ms 的 一 次 性 
中 断 ， 这 就 是 导致 系统 时 间 变 慢 的 原因 ， 本 次 应 该 给 
HPET 配 置 10ms-lu s 的 时 间 就 对 了 。 但 是 中 断 服 务 程 
序 好 像 并 无 法 知道 自己 运行 到 底 耗费 了 多 少时 间 。 

表 哥 灵机 一 动 ， 想 到 了 一 个 绝妙 的 办 法 。 由 于 
TSC 或 者 HPET 内 部 的 主 计 数 器 ， 在 被 使 能 之 后 便 一 
直 处 于 按照 固定 晶振 频率 单调 递增 状态 ， 不 能 被 清 零 
也 不 会 停止 ， 通 过 读 取 它 们 的 值 ， 就 可 以 获知 绝对 时 
间 流 逝 的 量 。 比 如 ， 在 周期 性 软 Tick 定 时 器 handler 刚 
开始 处 ， 用 rdtsc 指 令 读 取 TSC 的 值 并 记录 ， 在 运行 结 
束 并 配置 HPET 产 生 下 一 次 Tick 前 ， 再 读 取 一 次 TSC 
值 ， 与 之 前 保存 的 值 比较 即 可 得 出 绝对 时 间 又 流逝 了 
多 少 ， 假 设 为 t， 则 向 HPET 配 置 下 次 到 时 的 时 间 应 为 
10ms-t。 这 样 ， 每 次 周期 性 软 Tick 到 来 ， 只 要 将 系统 
时 间 统 一 加 10ms 即 可 。 但 是 这 样 做 似乎 并 不 如 干脆 在 
每 次 中 断 到 来 之 后 直接 读 取 TSC， 减 掉 保 存 的 上 一 次 
TSC 的 值 ， 得 出 绝对 时 间 的 流逝 ， 更 新 到 系统 时 间 ， 
这 样 能 够 使 计时 的 误差 保持 恒定 。 


10.7.2.5 中断 广播 唤醒 


一 般 来 讲 ， 对 于 一 款 典 型 的 现代 的 x86 CPU 以 及 
LO 桥 组 成 的 系统 来 讲 ， 会 同时 存在 这 些 表 : ВТС, 
HPET、APIC Local Timer、TSC。 对 于 一 些 较 老 的 系 
统 可 能 使 用 的 是 PIT 而 不 是 HPET。 鉴 于 上 一 节 表 哥 对 
之 前 的 烦恼 一 一 解决 之 后 ， 表 哥 最 终 对 如 何 利用 这 些 
表 ， 产 生 了 全 局 规划 。 

对 于 RTC， 只 在 启动 时 读 出 一 个 基准 时 间 ， 关 
机 前 写 入 内 存 中 保存 的 最 新 时 间 。 由 于 PIT/HPET 和 
Local Timer 功 能 类 似 ， 所 以 表 哥 更 中 意 Local Timer, 
毕竟 后 者 的 精度 更 高 ， 而 且 更 为 关键 的 是 ， 后 者 的 位 
置 就 在 核心 旁边 ， 而 前 者 一 般 在 主板 IO 桥 上 。 不 管 
是 配置 成 周期 性 中 断 〈 硬 Tick) 还 是 One-Shot 模 式 + 周 
期 性 软 Timer 〈 软 Tick) ， 后 者 都 游刃有余 。 但 是 ， 
历史 上 曾经 有 个 恼人 的 bug， 当 时 的 x86 CPU 内 部 的 
Local Timer 竟 然 会 跟随 着 CPU 逐步 进入 低 功 耗 模式 并 
最 终 停止 运行 (上 文中 提 到 过 ) 。 


内 核 初始 化 时 会 用 CPUID 指 令 读 出 APIC Timer 
的 信息 放置 到 x86 FEATURE ARAT 变 量 中 ( ARAT 
表示 Always Running APIC Timer ) ， 内 核 根 据 这 个 
变量 判断 APIC Timer 是 否 可 能 进入 低 功 耗 休眠 ， 从 
而 决定 后 续 的 控制 逻辑 。 
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对 于 老 一 些 的 CPU 平 台 ， 内 核 如 果 全 都 依靠 Local 
Timer 来 发 起 中 断 ， 一 旦 CPU 进 入 到 深度 idle 状 态 后 ， 
就 可 能 再 也 醒 不 了 了 ， 因 为 没有 时 钟 中 断 产 生 了 ， 此 
ЖН Ей 时 只 能 依靠 外 部 设备 中 断 来 唤醒 CPU， 而 并 不 能 保证 


T1 时 刻 到 时 
T4 时 刻 到 时 


(7) T2 时 刻 到 时 
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外 部 设备 会 长 期 持续 周期 性 产生 中 断 。 所 以 ， 表 哥 还 
不 能 彻底 放弃 PIT/HPET。 这 让 表 哥 比较 为 难 ， 不 用 
Local Timer， 售 不 得 ; 用 ， 又 会 出 问题 。 

表 哥 灵机 一 动 想到 了 一 个 绝妙 的 办 法 。 平 时 只 用 
Local Timer 来 驱动 软 计 时 、 软 定时 和 软 Tick， 用 TSC 
作为 单调 时 钟 源 作为 绝对 时 间 参 考 ， 而 把 PIT/HPET 
作为 备用 ， 平 时 不 工作 。 一 旦 CPU 要 进入 idle 状 态 
之 前 ， 启 用 PIT/HPET， 设 置 对 应 的 超时 值 ， 让 PIT/ 
HPET 来 唤醒 自己 。 由 于 系统 内 存在 多 个 CPU 核 心 ， 
而 哪个 核心 在 什么 时 候 进入 idle 又 是 随机 的 ， 如 何 做 
到 只 让 PIT/HPET 唤 醒 那些 进入 idle 的 CPU 核心 ? 这 好 
办 ， 做 一 个 登记 注册 机 制 就 可 以 ， 比 如 使 用 一 个 位 
map (或 者 称 之 为 mask) ， 哪 个 CPU 要 进入 idle， 就 
将 该 mask 自 己 对 应 的 位 置 1， 而 PIT/HPET 也 只 向 这 些 
CPU 核心 发 送 中 断 信号 。 

如 何 让 PIT/HPET 只 向 mask 中 登记 的 这 些 CPU 核 
心 发 送 中 断 信号 ? 当然 可 以 通过 设置 IO APIC 上 用 于 
连接 PITHPET 中 断 信 号 的 管 脚 (IRQ0) 所 对 应 的 IO 
Redirection Table 中 的 Destination ID 以 及 Mode 等 字段 
来 通过 Affinity 达 成 〈 详 见 10.6.1.8 节 ) ， 但 是 考虑 到 
通用 性 ， 并 非 所 有 的 中 断 控制 器 都 可 以 设置 Affnity， 
表 哥 灵机 一 动 ， 办 法 又 来 了 。 管 它 irq0 最 终 会 被 IO 
APIC 传 递 到 哪个 CPU， 传 到 谁 那儿 ， 谁 就 负责 : 向 
mask 中 标记 的 所 有 CPU (自己 除外 ) 通过 IPI 的 方式 
发 送 Vector 为 LOCAL_TIMER_VECTOR 的 中 断 。 也 就 
是 说 ， 在 每 个 CPU 决定 进入 深度 idle 之 前 ， 通 知 表 哥 
启用 PIT/HPET， 同 时 注册 一 个 专用 负责 发 IPI 中 断 的 
handler， 任 何 一 个 CPU 接收 到 irq0 的 中 断 ， 都 会 去 执 
行 该 handler。 


实际 上 ，Linux 内 核 在 初始 化 时 会 将 IRQ0 的 
Affinity 设 置 为 只 向 CPU#0 发 送 中 断 ，CPU0 也 是 
Boosstrap CPU (BSP， 见 第 6 章 ) 。 这 就 是 为 什么 
在 一 些 系 统 中 看 到 irq0 中 断 总 是 集中 在 CPU#0 上 。 


另 一 个 问题 ， 假 设 某 个 CPU 睡眠 了 ， 表 哥 如 何 知 
道 应 该 在 什么 时 间 应 该 唤醒 它 ? 上 文中 提 到 过 ， 内 
核 维护 着 软 Timer 定 时 器 队列 ， 这 个 队列 是 per cpu 变 
量 ， 每 个 CPU 对 应 一 个 队列 。 显 然 ， 负 责 发 送 IPI 的 
handler 应 该 在 睡眠 CPU 对 应 的 定时 器 队列 中 找到 最 近 
将 要 到 时 的 那个 Timer 中 记录 的 时 间 〈 下 一 个 即将 到 
时 的 Timer 会 被 预先 标记 在 每 个 CPU 对 应 数据 结构 中 
的 相应 字段 中 ， 这 样 就 不 用 每 次 都 搜索 了 ) ， 如 果 该 
时 间 恰 好 就 是 当前 时 间或 者 已 经 非常 接近 了 (不 值得 
再 设置 新 一 次 中 断 ， 或 者 精度 已 经 达 不 到 了 ) ， 则 
唤醒 该 CPU， 和 否则 不 唤醒 。 那 如 果 多 个 CPU 都 进入 了 
休眠 ， 怎 么 处 理 ? 那 当然 是 扫描 每 个 CPU 的 定时 器 队 
列 ， 找 到 全 局 最 近 将 超时 的 那个 ， 将 其 超时 值 写 入 
PIT/HPET 寄 存 器 以 便 到 时 触发 中 断 ， 并 将 该 CPU 在 


mask 中 对 应 的 位 置 1。 而 且 ， 如 果 发 现 有 多 个 定时 器 
的 到 时 时 间 非 常 接近 ， 那 么 可 一 次 性 唤醒 这 些 CPU， 
mask 中 多 个 CPU 对 应 的 位 同时 置 1。 


10.7.2.6 强制 周期 性 中 断 广播 


表 哥 的 烦恼 很 多 ， 还 有 一 个 值得 介绍 的 ， 那 就 
是 APIC Local Timer 可 能 也 会 不 准确 、 不 稳定 ， 其 原 
因 是 多 方面 的 ， 比 如 硬件 本 身 问 题 ， 或 者 环境 因素 比 
如 信号 完整 性 等 。 因 此 在 初始 化 时 会 利用 低 精度 的 时 
钟 源 比如 PIT/HPET 对 Local Timer 进 行 校准 ， 如 果 发 
现 后 者 不 稳定 ， 则 会 将 对 应 数据 结构 中 的 标记 置 位 
(CLOCK EVT FEAT DUMMY) ， 以 表示 该 Local 
Timer 不 能 用 。 

那么 ， 该 CPU 就 不 能 依靠 其 Local Timer 来 产生 中 
断 了 ， 此 时 只 能 借助 PIT/HPET 来 从 外 部 全 局 角度 居 
高 临 下 给 这 个 CPU 发 送 中 断 广播 。 为 此 ， 将 用 于 登记 
广播 需求 的 mask 中 对 应 位 恒定 置 1， 然 后 将 irq0 的 中 
断 handler 注 册 为 一 个 专门 用 于 发 广播 的 函数 ， 从 而 
在 PIT/HPET 中 断 到 来 时 对 那些 Local Timer 不 好 使 的 
CPU 提供 援助 。 而 收 到 IPI 的 CPU 就 好 像 真 的 被 自己 的 
Local Timer 给 中 断 了 一 样 ， 后 续 的 处 理 与 Local Timer 
中 断 时 完全 相同 。 

如 图 10-173 和 图 10-175 所 示 的 系统 中 断 情 况 ， 从 
中 就 可 以 看 出 端倪 ，timer Стао) 的 中 断 次 数 与 LOC 
(Local Timer) 大 致 相同 ，irq0 对 应 的 是 PIT/HPET。 
这 可 能 说 明 系 统 被 配置 强制 使 用 IPT 方式 来 向 所 有 核心 
发 出 Vector 为 LOCAL_TIMER_VECTOR 的 中 断 。 

看 来 表 哥 的 烦恼 真是 不 少 ， 我 们 下 面 就 来 看 看 表 
哥 是 如 何 将 他 的 思维 构建 起 来 的 。 


10.7.3 #814012 


本 节 我 们 来 看 看 表 哥 是 怎么 将 这 些 硬件 计数 器 以 
及 衍生 的 各 种 概念 、 参 数 进行 抽象 描述 和 组 织 的 。 


10.7.3.1 Clocksource Device 


10.7.2.4 节 中 介绍 过 ， 为 了 获得 准确 的 系统 时 间 ， 
需要 一 个 被 使 能 后 永远 跟随 晶振 频率 单调 递增 的 计数 
器 ， 该 计数 器 无 须 支持 中 断 〈 如 果 系 统 内 有 其 他 可 
以 发 出 中 断 的 定时 器 硬件 的 话 ) ， 因 为 软 计 时 handler 
会 主动 来 读 取 该 计数 器 的 值 与 上 一 次 读 取 的 值 相 减 就 
可 以 知道 绝对 时 间 流 逝 的 量 。 这 种 设备 被 表 哥 描述 为 
Clocksource Device СЕЕН) 。 如 图 10-223 所 示 
为 x86 平 台 下 典型 的 时 钟 源 设备 的 描述 结构 。 

表 哥 采用 struct clocksource{ } 描 述 每 个 时 钟 源 ， 
为 了 节约 篇 幅 该 结构 体 定义 就 不 贴 出 了 。 图 中 所 示 为 
三 个 预先 初始 化 好 的 实体 〈 这 些 实体 可 能 还 会 在 内 
核 初始 化 过 程 中 被 变更 ， 更 改 / 增 加 字段 ) 。 其 中 ， 
rating 字 段 表示 了 该 时 钟 源 的 优质 等 级 ， 值 越 高 等 级 
越 高 ， 越 倾向 于 使 用 ，rating 基 本 与 器 件 的 精度 相 
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关 。read 字 段 为 用 于 读 取 该 设备 单调 底层 计数 器 的 回调 函数 指针 〈 该 函数 无 
非 就 是 读 对 应 地 址 的 寄存 器 ， 代 码 就 不 贴 出 了 ) ，mask 字 段 给 出 了 该 硬件 
计数 器 的 最 大 可 记录 的 数值 范围 。 

表 哥 必须 知道 每 个 时 钟 源 设备 当前 的 晶振 输入 频率 ， 用 两 次 读 取 的 计 
数 器 值 差 值 除 以 频率 才 可 以 得 出 绝对 时 间 流 逝 的 量 。PIT 的 晶振 频率 是 定 
死 的， 所 有 系统 主板 在 设计 时 必须 都 固定 被 设置 为 1 193 182Hz。 而 对 于 
HPET， 不 固定 ， 所 以 硬件 需要 将 晶振 频率 值 预先 展示 在 自己 的 配置 寄存 
器 中 ，HPET 内 部 的 COUNTER_CLK_ PERIOD 只 读 寄存 器 保存 了 计数 器 每 
次 跳动 经 过 的 周期 值 《以 飞 秒 为 单位 ) 。 表 哥 : TSC， 你 的 频率 是 多 少 ? 
TSC: 你 猜 ! 比较 无 赖 的 一 点 是 其 需要 表 哥 动态 算出 它 的 频率 ， 也 就 是 利 
用 PIT 或 者 HPET 来 定时 ， 然 后 看 看 这 段 时 间 TSC 计 数 器 数值 变化 量 ， 然 
后 除 以 时 长 就 可 以 得 出 频率 ， 这 个 过 程 也 就 是 TSC 校 准 过 程 ， 也 是 为 何其 
fag 字段 中 的 CLOCK_ SOURCE _MUST_VERIFY 被 置 位 的 原因 。 下 面 将 会 
看 到 ，APIC Local Timer 也 需要 被 校准 。 

为 了 保证 效率 ， 内 核 代码 需要 尽量 避免 使 用 除法 和 浮 点 运算 〈 浮 点 运 
算 单元 有 自己 的 寄存 器 上 下 文 ， 用 户 态 代码 如 果 正 在 使 用 它 ， 内 核 要 使 用 
就 必须 对 其 保存 现场 ， 增 加 复杂 度 ， 降 低 任务 切换 速度 ) ， 所 以 表 哥 采用 
移 位 的 办 法 来 实现 除法 ， 右 移 1 位 相当 于 除 以 2。 假 设计 数 器 自 增 频率 为 F， 
两 次 读 取 的 计数 器 的 差 值 为 cycle， 假 设 t=cycle/F， 表 哥 先 用 传统 方式 计算 
出 的 值 ， 然 后 将 cycle 右 移 若干 位 一 直到 cycle 值 <t， 记 录 下 此 时 右 移 的 位 数 
〈 写 入 结构 体 中 的 shift 字 段 ) ， 然 后 再 用 原 cycle 值 除 以 右 移 之 后 的 cycle， 
得 出 一 个 商 〈 写 入 结构 体 中 mnult 字 段 ) 。 这 样 ， 对 于 后 续 的 任意 cycle 值 ， 
只 要 将 其 右 移 shif 个 位 ， 然 后 乘 以 mult 就 可 以 得 出 绝对 时 间 流 逝 的 量 。 避 免 
了 使 用 除法 。 

由 于 mult 和 shift 的 值 需要 表 哥 动态 算出 来 ， 所 以 在 定义 clocksource_hpet 
和 clocksource_tsc 结 构 体 时 一 开始 并 没有 对 这 两 个 字段 赋值 。 内 核 初始 化 后 
期 时 会 对 其 赋值 。 

另外 ， 表 哥 最 终 只 会 选择 其 中 一 个 时 钟 源 设备 来 使 用 ， 在 初始 化 过 程 
中 表 哥 会 根据 各 种 策略 来 选 出 最 心仪 的 那个 。 


为 何 APIC Local Timer 没 有 被 描述 成 时 钟 源 设 备 呢 ? 因为 其 内 部 只 
有 一 个 计数 器 ， 而 该 计数 器 会 被 表 哥 用 于 定时 计数 器 而 不 是 将 它 当 作 单 
调 递增 计数 器 ， 意 味 着 该 计数 器 的 值 会 被 内 核 改 来 改 去 以 便 定 时 产生 中 
断 。 这 种 产生 定时 中 断 的 设备 会 被 描述 为 struct clock event device( }, Ж 
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10.7.3.2 Clockevent Device 


凡是 能 够 产生 定时 中 断 的 〈 周 期 性 或 者 一 次 性 ) 时 钟 设备 ， 都 被 表 
哥 定义 为 时 钟 事件 设备 。 一 个 器 件 可 以 同时 具有 时 钟 源 或 者 时 钟 事件 的 能 
力 ， 或 者 可 以 被 配置 为 两 种 中 的 一 种 ， 或 者 也 可 以 既是 时 钟 源 又 同时 是 时 钟 
事件 设备 。 但 是 表 哥 会 统筹 安排 ， 保 证 系统 内 起 码 有 可 以 同时 生效 的 时 钟 源 
和 时 钟 事件 设备 。 所 有 时 钟 事件 设备 被 描述 在 struct clock event device( } 
结构 体 中 。 可 发 出 中 断 的 时 钟 设备 相 比 单调 递增 的 计数 器 设备 有 更 复杂 的 
操控 方法 和 更 复杂 的 寄存 器 定义 。 如 图 10-224 一 图 10-226 所 示 分 别 为 PIT、 
HPET 和 APIC Local Timer 这 三 者 对 应 的 时 钟 事件 设备 描述 结构 体 及 其 相关 
回调 函数 一 览 。 

clock event device 结 构 体 中 的 event_ handler 指 针 字 段 非常 重要 ， 其 登记 
了 当 该 clockevent 设 备 产生 中 断 时 ， 最 终 运 行 的 handler 函 数 。 当 然 ， 中 断 
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越 能 够 优先 得 到 更 多 养分 。 所 以 Local Timer 其 实 是 表 
哥 最 心仪 的 Tick 设 备 ， 只 有 在 其 未 校准 成 功 时 才 退 而 
求 其 次 使 用 HPET 设 备 ， 如 果 没 有 HPET， 最 保底 的 起 
码 会 有 个 PIT 供 使 用 。 表 哥 会 为 每 个 CPU 准备 一 个 全 
局 变量 tick_cpu_device， 每 个 CPU 最 心仪 的 设备 结构 
体 指针 会 被 赋值 给 该 变量 。 


10.7.3.3 Local/Global Device 


APIC Local Timer 和 TSC 由 于 是 per cpu 的 ， 每 个 
CPU 核心 或 者 超 线程 产生 的 逻辑 CPU) 都 有 一 个 ， 
专门 服务 于 本 核心 ， 本 核心 发 出 的 针对 它 的 地 址 访 
问 ， 这 些 访 存 请 求 是 局 部 的 ， 不 会 被 路 由 到 核心 外 
部 。 而 PIT/HPET 这 类 时 钟 设备 则 属于 全 局 的 ， 所 有 
CPU 可 以 共享 访问 。 


10.7.3.4 HZ/Jiffy/NOHZ 


HZ 为 一 个 可 以 由 用 户 通过 命令 /配置 文件 静态 配 
置 的 变量 ， 其 表示 周期 性 Tick 发 出 的 频率 ，x86 早 期 的 
系统 由 于 CPU 性 能 较 弱 ，HZ=100， 后 来 逐步 提升 ， 
目前 较 新 的 系统 一 般 被 设置 为 1000。HZ 数 过 高 会 导 
致 频繁 中 断 ， 影 响 系 统 效率 ， 但 是 优势 则 是 提升 任务 
响应 的 实时 性 。Tick 就 像 屏 幕 刷新 率 一 样 ， 只 有 达到 
一 定 的 频率 才能 有 更 流畅 平滑 的 体验 。 

Jifhes (单数 单词 Jiffy， 表 示 一 小 段 时 间 的 意思 》) 
为 一 个 全 局 变量 ， 记 录 了 系统 自 启动 以 来 发 生 的 Tick 
数量 ， 其 值 应 为 系统 启动 的 秒 数 XHZ， 反 过 来 ， 系 
统 运行 的 时 间 可 以 从 jiffies/HZ 计 算出 来 。tick_usec 和 
tick_nsc 这 两 个 全 局 变量 分 别 表示 1/HZ〈Tick 的 周期 
的 微 秒 和 纳 秒 数 。 

上 文中 提 到 过 ， 为 了 满足 高 精度 定时 的 需求 ， 
内 核 要 切换 到 NOHZ 模 式 ， 也 就 是 让 高 精度 可 产生 
中 断 的 时 钟 硬件 运行 在 ONESHOT 模 式 ， 下 一 次 中 断 
什么 时 候 来 ， 内 核 说 了 算 〈 重 新 配置 /re-program， 
set_next_event 回 调 函数 ) 。 内 核 可 以 设置 纳 秒 级 的 超 
时 时 间 给 硬件 ， 同 时 为 了 模拟 均匀 的 低 精度 周期 性 
Tick， 表 哥 给 自己 准备 了 周期 性 Tick 软 定时 器 挂 入 定 
时 器 队列 跟随 其 他 程序 设 定 的 软 Timer 一 同 排队 等 待 
触发 。NO HZ 是 一 个 模式 ， 而 不 是 某 个 变量 ， 内 核 采 
用 变量 tick_nohz_enabled/tick_nohz_disabled 来 记录 是 
否 启 用 了 NOHZ 模 式 。 值 得 一 提 的 是 ， 即 便 不 使 用 高 
精度 定时 ， 也 可 以 运行 在 NOHZ 模 式 ， 用 周期 性 Tick 
软 定时 器 来 均匀 产生 Tick。 


10.7.3.5 ”各 种 时 间 种 类 
内 核 记录 了 多 种 不 同 种 类 的 时 间 ， 包 括 : Wall 


Time (xtime) 、Monotonic Time、Raw Monotonic 


Time、 Boot Time、Total Sleep Time。 

这 些 时 间 都 是 用 struct timespec пе t tv sec: long 
tv. nsec; } 结 构 体 来 记录 具体 的 值 ， 每 个 时 间 都 会 被 
初始 化 一 份 该 结构 体 的 实例 。tv_sec 字 段 记 录 了 当前 


时 间 相距 1970 年 1 月 1 日 0 点 的 差 值 秒 数 ， 而 tv_nsec 字 
段 则 记录 了 纳 秒 数 增 量 ， 也 就 是 说 ， 将 tv_sec 转 换 为 
纳 秒 ， 再 加 上 tv_nsec 就 是 相距 1970 年 1 月 1 日 0 点 的 总 
纳 秒 数 。 所 以 ， 如 果 该 值 为 全 0， 系 统 时 间 会 显示 为 
1970 年 1 月 1 日 ， 如 果 开 机 后 时 间 回归 到 此 原点 ， 多 
半 表 示 主 板 上 的 RTC 电 池 已 经 失效 。 你 可 能 会 有 疑 
惑 ， 为 什么 不 把 公元 0 年 〈 中 国 的 西汉 ) 作为 时 间 基 
准 原 点 ? 如 果 那 样 ，2018 年 3 月 9 日 距离 那 时 的 秒 数 为 
63 648 201 600 秒 ， 二 进 制 值 为 111011010001101110 
100111101110000000，36 位 ， 会 导致 溢出 。 对 于 32 位 
系统 来 讲 ，32 位 值 最 大 记录 68 年 ， 取 1970 年 是 一 个 综 
合 权衡 的 结果 。 

RTC 和 Wall Time。RTC 时 间 完 全 不 受 系统 运行 的 
影响 ， 它 就 像 一 块 独立 的 电子 表 一 样 ， 每 秒 跳动 一 
次 。 系 统 只 在 启动 的 时 候 ， 读 出 它 的 时 间 ， 并 将 其 
值 转换 格式 后 存储 到 struct timespec xtime{ } 结 构 体 中 
(俗称 Wall Time， 形 容 挂 在 墙 上 的 钟表 ， 记 录 世 界 绝 
对 时 间 ) ， 用 于 记录 当前 的 绝对 时 间 〈 可 以 被 转换 为 
年 月 日 时 分 秒 最 后 做 格式 化 输出 ) 。xtime 可 以 被 用 户 
任意 修改 。 

Monotonic Time， 单 调 递增 时 间 。 该 时 间 自 系统 
启动 后 一 直 单调 增加 ， 它 不 像 xtime 可 以 因 用 户 的 调整 
而 改变 ， 不 过 该 时 间 不 计 入 系统 休眠 的 时 间 ， 系 统 休 
眠 时 ，Monotoic 停 止 增长 。 该 时 间 也 会 受到 NTP (网 
络 对 时 模块 ) 的 影响 ， 从 而 被 调整 。 内 核定 义 了 一 
个 struct timespec wall to_monotonic{ } 来 记录 xtime 和 
Monotonic 时 间 之 间 的 偏 移 量 ， 当 需要 获得 Monotonic 
时 间 时 ， 把 xtime 和 wall to_monotonic 相 加 即 可 ， 因 为 
默认 启动 时 Monotonic 时 间 为 0， 所 以 实际 上 wall to_ 
monotonic 的 值 是 一 个 负数 。 

Total Sleep Time。 记 录 休 眠 的 时 间 ， 每 次 休眠 
醒 来 后 重新 累加 该 时 间 ， 并 调整 wall to monotonic 的 
值 ， 使 其 在 系统 休眠 醒 来 后 ，Monotonic 时 间 不 会 发 
生 跳 变 。 

Raw Monotonic Time。 该 时 间 与 Monotonic 时 间 类 
似 ， 也 是 单调 递增 的 时 间 ， 唯 一 的 不 同 是 其 不 会 受到 
NTP 对 时 间 调 整 的 影响 ， 它 代表 着 系统 独立 时 钟 硬件 
对 时 间 的 统计 。 

Boot Time。 与 Monotonic 时 间 相 同 ， 不 过 会 计 入 
系统 休眠 的 时 间 ， 所 以 它 代 表 着 系统 上 电 直 到 关机 之 
前 经 历 的 总 时 间 。 

Timerkeeper。 内 核 还 维护 着 一 个 struct 
timekeeper( } 结 构 体 ， 专 门 用 于 存放 一 些 零散 的 经 过 
其 他 换算 、 调 整 之 后 的 时 间 值 ， 如 图 10-227 所 示 。 这 
也 是 其 被 称 为 keeper 的 原因 ， 相 当 于 一 个 杂七杂八 的 
容器 。 别 小 看 了 这 个 容器 ， 其 中 有 一 项 非常 重要 的 内 
Ф: sturct clocksource *clock， 该 项 记录 了 当前 被 表 哥 
选中 的 、 心 仪 的 那个 clocksource 设 备 ， 其 指针 就 被 存 
放 在 该 项 中 ， 每 次 表 哥 希望 读 取 绝对 时 间 ， 就 直接 调 
用 timekeeper->clock->read0 即 可 。 


struct timekeeper | 
/* Current clocksource used for timekeeping. */ 
struct clocksource *clock; 
/* The shift value of the current clocksource. */ 
int shift; 
/* Number of clock cycles in one NTP interval. */ 
cycle t cycle interval; 
/* Number of clock shifted nano seconds in one NTP interval. */ 
u64 xtime interval; 
/* shifted nano сон left over when rounding cycle interval */ 
564 xtime rema: ud 
/* Raw nano Seconds accumulated per NTP interval. */ 
u32 raw interval 
Ре Clock shifted nano seconds remainder not stored in xtime.tv nsec. */ 
u64 xtime nsec; 
/* Difference between accumulated time and NTP time in ntp 
* ад: nano seconds. */ 
564 ntp error; 
/* Shift а ion between clock shifted nano seconds and 
* ntp shifted nano seconds. 
int ntp error shift; 
/* NTP adjusted clock multiplier */ 


— timerkeeper 结 构 体 中 的 内 容 


xtime, monotonic time 和 raw monotonic time 可 以 
通过 用 户 空间 的 clock_gettime() 函 数 通过 相关 系统 调 
用 获得 ， 对 应 的 ID 参数 分 别 是 CLOCK _ REALTIME, 
CLOCK MONOTONIC, CLOCK MONOTONIC 
RAW。 表 10-4 总 结 了 各 种 时 间 的 属性 。 

内 核 及 用 户 态 库 提供 了 一 些 对 应 的 格式 化 输出 函 
数 来 获取 上 述 各 种 时 间 ， 篇 幅 所 限 就 不 列 出 了 ， 读 者 
可 自行 了 解 。 


10.7.3.6 ” 低 精 度 定时 器 时 间 轮 


Timer 这 个 词 在 内 核 中 更 多 的 是 指 软 Timer， 而 硬件 
时 钟 定时 器 也 可 能 被 称 为 Timer， 不 过 一 般 会 加 上 HW 
前 级 表示 硬件 的 意思 。 内 核 将 低 精度 软 定时 器 和 高 精 
度 软 定时 器 挂 到 不 同 的 队列 中 ， 前 者 被 放置 到 一 个 链 
表 中 ， 后 者 则 被 放置 到 红 黑 树 中 。 前 文中 提 到 过 红 黑 
树 ， 其 作用 是 可 以 以 比较 低 的 代价 实现 自 排序 ， 红 黑 
树 最 左 侧 挂 接 的 就 是 马上 就 要 到 期 的 那个 Timer。 

如 图 10-228 所 示 为 低 精度 定时 器 的 组 织 方 式 。 内 
核 为 每 个 CPU 核 心 都 建立 一 个 名 为 tvec_bases 的 struct 
tvec base( } 结 构 体 ，static DEFINE PER_CPU(struct 
tvec_base *, tvec_bases) = &boot_tvec_bases。 其 中 ， 
running_timer 指 向 当前 CPU 正 在 处 理 的 定时 器 所 对 应 
的 timer_list 结 构 。timer jiffies 字 段 表示 当前 CPU 已 经 
经 历 过 的 jiffies 次 数 。next_timer 字 段 指向 该 CPU 下 一 
个 即将 到 期 的 定时 器 对 应 的 timer_ list 结构。 

每 个 低 精度 定时 器 对 应 的 全 部 信息 被 封装 在 struct 
timer list( } 中 ， 所 以 ， 一 个 timer list 结 构 体 实例 就 是 
一 个 低 精度 定时 器 。 上 文中 说 到 过 ， 外 部 时 钟 中 断 到 
来 之 后 ， 表 哥 需 要 挨个 儿 查 看 当前 的 定时 器 有 没有 到 
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哥 采 用 一 些 数据 结构 来 加 速 这 种 搜索 过 程 ， 可 以 更 迅 
速 地 找 出 距离 最 近 的 要 超时 的 定时 器 。 

定时 器 先 被 串 接 到 链表 中 ， 然 后 将 链表 挂 接 到 
list head vec 表 头 上 ， 多 个 vec (每 个 vec 下 都 可 以 挂 接 
一 串 定时 器 ) 形成 一 个 数组 ， 封 装 到 stmuct tvec{ } 结 构 
体 中 ， 多 个 tvec 结 构 体 再 被 登记 到 tvec_bases 中 。 整 个 
这 套数 据 结 构 形成 如 图 中 间 所 示 的 关系 结构 。 下 面 看 
一 下 tvec 结 构 体 。 

tvec_bases 共 登记 了 5 个 tvec， 其 中 ，tv1 为 tvec_ 
root 构 型 ， 其 与 tvec 构 型 唯一 不 同 的 就 是 其 内 部 的 list_ 
head vec[ ] 数 组 的 项 目 数 量 要 大 。 默 认 配 置 下 TVR_ 
SIZE=256，TVN_SIZE=64。 另 一 种 更 节省 内 存 的 配 
置 是 TVR_SIZE=64，TVN_SIZE=16， 这 两 套 配置 通 
过 CONFIG BASE SMALL 宏 来 控制 。 

当 内 核 代 码 〈 比 如 驱动 程序 等 ) 创建 好 一 个 
timer list 定 时 器 结构 体 之 后 ， 可 以 调用 add_timer0) 或 
者 mod_timer0 函 数 将 该 定时 器 挂 入 上 述 结构 体 中 ， 这 
两 个 函数 最 终 都 会 执行 到 internal_ add_timer0 函 数 。 该 
函数 会 根据 该 定时 器 中 的 到 期 时 间 Ctimer. list.expires 
字段 ， 存 放 目 标 到 期 时 间 的 jiffies 值 ) 与 tvec_bases. 
timer jiffies 字 段 的 差 值 〈( 记 为 idx) 来 决定 将 该 定时 器 
被 放 入 tv1 一 tv5 中 的 哪 一 个 中 。 有 具体 规则 如 下 : 若 idx 
位 于 0~255， 也 就 是 <2-1， 则 放 入 tv1， 但 是 tvl1 中 有 
ZAMA (默认 256 项 ) ， 放 入 哪 一 项 下 面 的 链表 ， 
Вишег list.expires 值 的 低 8 位 作为 索引 来 决定 ， 比 如 
如 果 低 8 位 为 00000011， 则 挂 到 tv1->vec[4] 对 应 的 链 
表 尾 部 。 如 果 25-1<idx<2*-1， 则 挂 入 tv2 中 的 以 timer_ 
list.expires 值 的 8 一 14 位 为 索引 对 应 的 tv2->vec[ ] 链 表 
尾部 。 同 理 ， 对 于 tv3 一 tv5 也 按照 类 似 方式 处 理 。 你 
可 能 会 认为 即将 到 期 的 定时 器 会 在 tvl.vec[1] 中 ， 总 之 
越 靠 前 越 是 即将 到 期 的 ， 非 也 。 

假设 当前 的 tvec_bases.timer_jiffies 值 是 
0x00000000， 某 内 核 模块 注册 了 一 个 将 在 两 个 tick 后 也 
就 是 jiffies 值 0x00000002 到 期 的 定时 器 ， 则 按照 上 述 规 
则 ， 其 与 当前 jiffies 差 值 为 0x02， 小 于 255 (ОхЕЕ), 
所 以 其 会 被 挂 入 tvl.vec[0x02] 一 项 中 。 两 个 tick 之 后 ， 
tvec bases.timer jiffies 值 增长 到 0x00000002。 那 么 ， 在 
每 个 tick 到 来 时 ， 表 哥 如 何 知道 到 底 去 哪个 tv 的 哪个 数 
组 项 目 对 应 的 链表 提取 定时 器 handler 执 行 呢 ? 表 哥 发 
现 当前 jiffies 值 的 低 8 位 不 为 0， 便 去 tvl1 中 ， 用 低 8 位 也 
就 是 0x02 来 索引 tv1 中 的 数组 ， 到 其 第 0x02 项 对 应 的 链 
表 提取 定时 ， 便 提取 到 了 刚才 注册 的 那个 定时 器 ， 执 


时 的 ， 如 果真 的 是 “挨个 儿 ” 和 看， 很 费时 。 为 此 ， 表 ” 行 其 中 的 handler function. 
表 10-4 各 种 时 间 的 属性 一 览 


RTC 低 慢 Yes Yes 

xtime (Wall Time) 高 快 Yes Yes 
monotonic 高 快 No Yes 
raw monotonic 高 快 | Мо Мо 
boot time 高 * | Yes Yes 
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接着 ， 内 核 模块 又 注册 了 一 个 到 时 时 
间 为 256 个 tick 之 后 ， 也 就 是 timer list.expires 
= 0x00000002 + 0x100 = 0x00000102， 按 照 
上 述 规则 ， 差 值 大 于 255， 需 要 将 该 Timer 
放 入 tv2 中 的 以 timer list.expires 的 8 一 14 位 
为 索引 的 数组 项 目 中 ，0x102 的 8 一 14 位 为 
0000001， 则 放 入 tv2.vec[1] 中 。 时 间 继 续 
流逝 ， 一 直到 当前 jiffies 值 为 0x000000FF 
时 ， 表 哥 按 照 对 应 规格 去 到 对 应 tv1 的 数 
组 中 寻找 定时 器 ， 都 找 不 到 ， 因 为 目前 唯 
一 一 个 定时 器 在 tv2 中 。 此 刻 ， 又 来 了 一 
个 tick，jiffies=0x00000100， 这 时 ， 表 哥 
会 做 一 件 关键 的 事情 ， 因 为 所 有 定时 在 
0х00000100--0х00003Ғ00 (距离 当前 64 个 
tick 之 内 ，tv2 的 数组 中 最 多 有 64 项 ) 的 定时 
器 ， 都 将 在 255 个 tick 之 内 陆续 到 期 ， 根 据 上 
述 规则 ，255 tick 内 到 期 的 定时 器 应 该 被 放置 
到 tv1 中 ， 但 是 它们 现在 正 处 于 tv2 中 等 候 ， 
于 是 表 哥 利用 当前 tvec_bases.timer jiffies 
值 的 第 8 一 14 位 将 tv2 中 所 有 的 定时 器 一 个 
个 读 出 ， 并 调用 internal add_timer() 将 它们 
重新 加 入 ， 该 函数 只 与 当前 jiffies 做 对 比 ， 
当 发 现 这 些 定 时 器 与 当前 时 间 差 值 小 于 255 
时 ， 自 然 会 将 它们 放 入 tv1 中 ， 这 就 完成 了 
从 tv2 到 tv1 的 迁移 过 程 。 这 个 过 程 只 在 当前 
jiffies=0x00000100 时 被 触发 ， 也 就 是 说 ， 表 
哥 发 现 jiffies 的 第 8 位 产生 了 一 次 进位 时 。 

此 时 ，jiffies 从 0x00000100 继 续 增长 ， 两 
个 tick 后 ， 长 到 0x00000102， 低 8 位 不 为 0， 所 
以 表 哥 会 继续 从 tv1 中 寻找 合适 的 Timer 处 理 ， 
显然 它 会 从 tv1.vec[2] 对 应 的 链表 中 ， 将 其 中 
的 Timer 挨 个 处 理 掉 。 由 于 之 前 被 挂 接 到 tv2 中 
的 Timer 已 经 被 全 部 迁移 到 了 tv1， 刚 才 注 册 的 
那个 将 于 0x00000102 到 期 的 Timer 就 会 被 挂 到 
tvl.vec[2] 中 ， 所 以 被 及 时 地 处 理 了 。 

同 理 ， 当 tvec_bases.timer_jiffies 的 
第 14 位 有 进位 发 生 (100000000000000, 
0x00004000) ， 从 0x00003FFF 变 为 
0x00004000。 这 也 意味 着 tv3 中 的 全 部 64 个 
Timer (如 有 ) 将 于 jiffies=0x00007FFF 前 陆 
续 到 期 ， 也 就 是 距离 现在 214 个 tick 之 内 陆 
续 到 期 ， 根 据 规则 ， 这 些 Timer 需 要 被 放 入 
tv2， 所 以 表 哥 调用 internal add_timer() 将 tv3 
的 Timer 迁 移 到 tv2 中 。 后 续 对 tv4/tv5 的 处 理 
原理 相同 。 可 以 想象 ， 这 5 个 tv 就 像 5 个 咬合 
在 一 起 的 齿轮 ，tv1 转 的 最 快 〈 到 期 时 间 最 
短 ) ， 而 tv5 转 的 最 慢 〈 到 期 时 间 最 长 ) 。 
随 着 时 间 流 逝 ， 定 时 器 从 慢 齿 轮 逐 步 向 前 
一 步 步 挪 移 。 于 是 人 们 将 这 种 机 制 俗称 为 
Timer Wheel (时 间 轮 ) ， 如 图 10-229 所 示 。 


б 


10-229 ”时间 轮 


再 来 看 看 timer list， 也 就 是 定时 器 内 部 的 字段 含 
义 。entry 字 段 是 链表 表 头 ， 用 于 把 一 组 定时 器 组 成 一 
个 链表 然后 挂 入 某 个 tv。expires 字 段 记录 了 该 定时 器 
的 到 期 时 刻 〈 到 期 jiffies 值 ) 。base 字 段 则 指出 该 定时 
器 隶属 于 哪个 tvec_bases (每 个 CPU 都 有 各 自 的 tvec_ 
bases 结 构 体 ) 。function 字 段 则 是 该 定时 器 到 期 之 后 
将 要 执行 的 handler 函 数 的 指针 ， 其 返回 值 为 void 。 
data 字 段 用 于 记录 handler 回 调 函数 的 参数 。 对 于 一 些 
对 到 期 时 间 精 度 不 太 敏 感 的 定时 器 ， 到 期 时 刻 允 许 适 
当地 延迟 一 小 段 时 间 ，slack 字 段 用 于 计算 每 次 延迟 的 
HZ 数 。 

内 核 提供 了 一 些 用 于 管理 这 些 数据 结构 的 函数 ， 
除了 上 面 的 add_timer(O/mod timer(). internal add - 
timer(0 之 外 ， 还 有 del timer(&timer), void add timer | 
on(struct timer list *timer, int cpu)// 在 指定 的 cpu 上 添加 
定时 器 、int mod timer pending(struct timer list *timer, 
unsigned long expires)// 只 有 当 timer 已 经 处 在 激活 状态 
时 才 修 改 timer 的 到 期 时 刻 、void set timer slack(struct 
timer list *time, int slack_hz)// 设 定 timer 允 许 的 到 期 
时 刻 的 最 大 延迟 、int del timer. sync(struct timer list 
*timer)// 如 果 该 Timer 正 在 被 处 理 中 则 等 待 Timer 处 理 
完成 才 移 除 该 Timer。 


10.7.3.7 ”高 精度 定时 器 红 黑 树 


对 于 高 精度 定时 器 (High Resolution, hr) , 
由 于 其 精度 高 ， 所 以 到 期 时 间 很 细碎 ， 要 求 更 高 效 
迅速 的 处 理 。 对 于 低 精度 Timer， 多 个 Timer 可 以 挂 
接 到 同一 个 vec[ ] 项 下 面 的 链表 中 ， 它 们 会 在 某 次 
tick 被 全 部 处 理 掉 。 而 对 于 高 精度 Timer， 每 个 Timer 
要 求 更 精确 的 到 期 处 理 ， 所 以 基本 不 会 发 生 有 多 个 
Timer 在 比如 同一 个 纳 秒 内 到 期 。 同 时 ， 高 精度 下 
tick 到 来 的 频率 将 可 能 非常 高 ， 每 次 tick 之 后 的 处 
理 必 须 迅 速 ， 而 时 间 轮 架构 下 存在 批量 迁移 这 个 动 
作 ， 是 比较 费时 的 一 步 ， 所 以 时 间 轮 方案 不 管 是 从 
精细 度 还 是 处 理 速度 上 ， 都 无 法 满足 高 精度 Timer 的 
设计 要 求 。 

于 是 ， 设 计 人 员 想 到 了 能 够 实现 以 很 小 的 处 理 
代价 实现 自 排序 的 红 黑 树 ， 这 样 ， 红 黑 树 最 左边 挂 接 
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的 永远 都 是 下 一 个 即将 到 期 的 定时 器 。 这 样 表 哥 就 可 
以 读 出 该 Timer 的 超时 值 然后 将 其 编程 到 Clock_event | 
device 寄 存 器 中 触发 到 期 中 断 。 如 图 10-230 所 示 为 高 
精度 定时 器 的 数据 结构 组 织 示意 图 。 

高 精度 定时 器 被 描述 在 struct hrtimer( } 中 ， 多 个 
hrtimer 定 时 器 相互 组 织 成 红 黑 树 。 由 于 hrtimer 人 允许 
使 用 三 种 不 同 的 时 间 (Wall Time, Monotonic Time, 
Boot Time) 来 描述 超时 值 ( 低 精度 定时 器 只 使 用 
jiffies 值 来 描述 ) ， 所 以 内 核 分 别针 对 这 三 种 时 间 
记录 方式 建立 了 三 个 独立 的 红 黑 树 (如 图 右 下 角 所 
RO ， 使 用 同一 种 时 间 记 录 方 式 的 hrtimer 就 被 放 到 对 
应 的 红 黑 树 里 。 每 棵 红 黑 树 的 树 根 被 挂 接 到 一 个 struct 
hrtimer clock base( } 结 构 体 中 的 timerqueue_head 结 构 
体 中 的 struct rb. root head 结 构 体 中 的 红 黑 树 钾 点 上 。 
三 棵 红 黑 树 的 hrtimer_clock_base 结 构 体 组 织 成 一 个 
clock base[ ] 数 组 ， 该 数组 连同 其 他 一 些 控制 、 状 态 
信息 被 描述 在 最 项 层 的 struct hrtimer_cpu_base{ } 结 构 
体 中 ， 内 核 为 每 个 CPU 核心 都 生成 一 份 hrtimer_ epu 
base 结 构 体 。 

高 精度 时 钟 统一 使 用 ktime 结 构 来 记录 时 间 
值 ，ktime 的 格式 与 timespec 不 太 相同 ， 内 核 提 供 了 
timespec_to_ktime() 函 数 用 于 做 转换 。 

hrtimer 结 构 体 中 的 _softexpire 字 段 记录 了 该 定时 
器 的 到 期 时 间 ; node 字 段 记 录 了 该 定时 器 所 挂 接 到 的 
红 黑 树 锦 点 ;*function 字 段 记 录 了 到 期 调用 的 handler 
回调 函数 指针 ， 其 返回 值 为 HRTIMER_NORESTART 
和 HRTIMER_RESTART 中 的 一 个 ， 如 果 返 回 值 为 后 
者 ， 证 明 handler 希 望 继 续 定 时 ， 则 内 核 需要 继续 将 该 
Timer 挂 入 红 黑 树 〈 如 图 中 部 下 方 所 示 为 某 设备 驱动 
中 的 示意 代码 ) ; *base 字 段 用 指针 记录 了 该 定时 器 
处 在 三 个 hrtimer_clock_base 结 构 体 中 的 哪 一 个 ，state 
字段 记录 了 当前 定时 器 所 处 的 状态 ， 可 以 是 #define 
HRTIMER STATE INACTIVE 0x00 // 定 时 器 未 激活 、 
#define HRTIMER_STATE_ENQUEUED 0x01 // 定 时 
器 已 经 被 排 入 红 黑 树 中 、#define HRTIMER 5ТАТЕ | 
CALLBACK 0x02 // 定时 器 的 回调 函数 正在 被 调用 、 
jdefine HRTIMER STATE MIGRATE 0x04 // 定 时 器 
正在 CPU 之 间 做 迁移 。hrtimer->timerqueue_node 结 构 
体 中 的 expire 字 段 则 也 保存 了 本 定时 器 的 超时 值 ， 其 
与 _softexpire 的 区 别 是 ， 前 者 属于 硬 超时 值 。 背 景 如 
下 : 比如 B 定 时 器 晚 于 A 定 时 器 10ns 到 期 ， 在 第 一 个 中 
断 到 达 之 后 ， 中 断 服务 程序 运行 就 需要 远 不 止 10ns， 
处 理 完 后 再 给 B 定 时 器 设置 一 个 10ns 的 One-Shot 中 
断 ， 这 完全 是 本 末 倒 置 ， 还 不 如 直接 把 B 和 A 一 同 在 A 
到 时 的 时 候 处 理 掉 ， 不 差 这 10ns 了， 否则 B 会 在 数 百 
甚至 上 千 ns 后 才能 到 时 ， 这 与 B 一 开始 的 期 望 差 的 更 
远 。 所 以 ，hrtimer->timerqueue_node.expire 字 段 给 出 
的 是 原始 期 望 的 到 时 时 间 ， 而 _softexpire 中 保存 的 是 
可 以 灵活 变通 的 到 期 时 间 ， 这 样 ， 表 哥 就 可 以 将 多 个 
定时 器 进行 比较 ， 如 果 发 现 它们 的 _softexpire 值 足够 
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表格 就 是 最 原始 的 图 


些 


区 


纸 。 但 是 一 个 系统 是 动态 、 有 因果 关系 


表 哥 ， 表 格 。 用 代码 来 描述 一 个 事 
物 ， 就 是 用 一 堆 表格 来 记录 各 种 子 表格 、 
的 ， 此 时 需要 看 函数 的 实现 ， 函 数 们 是 
怎么 根据 这 些 图 纸 里 记录 的 各 种 参数 、 
指针 ， 然 后 按 图 索 驴 将 整个 系统 运行 起 


指针 、 
来 的 。 
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新 添加 了 一 款 新 clockevent 表 、 某 Local 


Timer 不 好 使 的 核心 要 睡眠 从 而 要 求 启 
动 中 断 广播 援助 、 有 CPU 要 被 热 拔 出 


了 ， 等 等 。 
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PREPARE。 这 么 做 的 原因 是 因为 当 内 核 
初始 化 时 ， 一 开始 是 由 BSP (Boot Strap 
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热 拔 出 前 不 仅 需 要 处 理 Timer， 还 需要 处 理 其 他 一 系 
列 事情 ， 意 味 着 自然 会 有 一 大 堆 的 其 他 notifier block 
被 挂 接 到 cpu_chain 上 ， 比 如 负责 将 该 CPU 之 前 连接 
着 的 DDR RAM 内 存 中 的 数据 搬移 到 系统 剩余 的 其 
他 RAM 中 ， 等 等 ， 都 会 被 依次 调用 到 。 当 然 ， 我 们 
只 看 Timer 相 关 的 。CPU_DEAD 参 数 对 应 了 migrate_ 
timersO 函 数 ， 其 做 的 事情 如 图 所 示 ， 篇 幅 所 限 不 多 介 
ЯТ. 

注册 内 核 通知 链 以 及 接着 发 出 一 个 CPU_UP_ 
PREPARE 通 知 并 处 理 之 后 ，init_timers() 注 册 run_ 
timer_softirq() 函 数 到 TIMER_SOFTIRQ 软 中 断 向 量 
上 ， 这 意味 着 ， 内 核 任何 代码 激活 TIMER_SOFTIRQ 
之 后 ， 在 下 一 次 时 钟 中 断 的 irq_exit() 下 游 便 会 调用 
run_timer_softirq() 函 数 。 该 函数 很 重要 ， 因 为 从 低 精 
度 模式 切换 到 高 精度 的 过 程 就 是 在 该 函数 中 完成 的 ， 
下 文中 再 介绍 。 


10.7.4.3 hrtimers_init() 


接着 ， 初 始 化 过 程 走 入 了 hrtimers_init() 函 数 ， 
看 名 字 就 知道 ， 该 函数 为 高 精度 定时 器 的 初始 化 函 
数 ， 其 套路 与 上 面 低 精度 对 应 的 函数 雷同 ， 如 图 10- 
234 所 示 。 调 用 register_cpu_notifier() 函 数 向 cpu_chain 
里 注册 了 一 个 用 于 处 理 与 高 精度 hrtimer 有 关 的 np， 其 
notifier_call 指 向 hrtimer_cpu_notify()， 并 顺手 发 了 一 
СРО ОР PREPARE 通 知 ， 触 发 init_hrtimer сри Ë 
数 的 执行 ， 我 们 甚至 都 可 以 猜 出 来 该 做 什么 事情 了 ， 
对 ， 一定 是 去 初始 化 图 10-230 中 所 示 的 那 一 堆 数 据 结 
构 ， 留 给 读者 自行 查阅 吧 。 

我 们 在 此 关注 一 下 针对 CPU_DYING/CPU_DEAD 
事件 的 函数 clockevents_notify()。 如 图 10-235 所 示 ， 
该 函数 最 终 其 实 是 去 向 clockevents_chain 通 知 链 发 
去 了 对 应 的 通知 (CLOCK_EVT_NOTIFY_CPU_ 
DYING) ， 通 过 调用 notifier_call_chain() 函 数 最 终 执 
行 了 clockevents_chain 中 挂 接 的 所 有 nb 中 的 notifier_call 
回调 函数 。 与 上 文 相 呼应 ， 我 们 查 一 下 图 10-232 中 对 
应 CPU_DYING 事 件 的 处 理 函 数 为 tick_handover_do_ 
timer0， 至 于 该 函数 的 作用 ， 下 文中 介绍 。 所 以 ， 通 
知 链 是 可 以 连锁 触发 的 ，cpu_chain 上 的 事件 触发 了 
clockevents_chain 上 的 事件 。 

像 低 精度 定时 器 初始 化 一 样 ，hrtimer_init() 做 
的 第 二 件 事 则 是 将 run_hrtimer_softirq() 注 册 到 了 
HRTIMER_SOFTIRQ 软 中 断 向 量 上 。 


10.7.4.4 timekeeping_init() 


接着 ， 初 始 化 过 程 到 达 了 timekeeping_init() 函 
数 ， 如 图 10-236 所 示 。 顾 名 思 义 ， 该 函数 就 是 进行 
各 类 时 间 值 的 初始 化 操作 。 可 以 看 到 其 调用 了 read_ 
persistent_clock()， 该 函数 底层 就 是 从 RTC 中 读 出 绝对 
时 间 值 ， 然 后 赋值 给 xtime 变 量 。 

然后 ， 该 函数 将 clocksource_default_clock() 
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的 返回 值 赋值 给 clock， 然 后 将 clock 作 为 参数 调 
用 timekeeper_setup_internals() 函 数 将 clock 注 册 
到 timerkeeper.clock 字 段 中 ， 并 且 使 用 新 注册 的 
clocksource 设 备 对 应 的 read 回 调 函 数 读 出 当前 的 硬 
件 计数 器 值 ， 对 其 他 字段 做 一 些 初始 化 操作 。 而 
clocksource_default_clock() 内 部 只 有 一 句 代码 : return 
&clocksource jiffies。 显 然 ，&clocksource jiffies 是 一 
个 sturct clocksource( } 时 钟 源 ， 前 文中 并 没有 介绍 过 
它 ， 因 为 它 完 全 是 一 个 假 的 “设备 ”， 其 .read 成 员 回 
调 函 数 只 是 简单 地 返回 当前 的 jiffies 值 (jiffies 值 会 在 
clockevent 设 备 每 次 发 出 的 tick 中 断 之 后 更 新 ) ， 但 是 
如 果 没 有 外 部 硬件 单调 递增 计数 器 ，jiffies 的 值 是 不 
准 的 ， 所 以 clocksource_jiffies 的 rating 被 设置 为 1， 最 
低 。 既 然 如 此 ， 为 何 还 要 用 它 来 当 作 时 钟 源 呢 ? 因为 
初始 化 走 到 这 一 步 时 ，PIT/HPET 设 备 还 没有 启用 呢 ， 
只 能 先 找 个 顶替 的 假 货 放 上 去 ， 待 后 续 PIT/HPET 启 用 
之 后 ， 自 然 会 替代 掉 它 。 


10.7.4.5 time init()/late time init() 


这 一 步 是 真正 的 重头 戏 。time_init() 将 late_time_ 
init 赋 值 为 x86_late_time_init() 之 后 ， 就 返回 到 start_ 
kernel() 继 续 执 行 ， 最 终 执行 到 late_time_init()， 也 就 
执行 了 x86_late_time_init()， 后 者 执行 x*86_init.timers. 
timer init0 回 调 函 数 ， 其 指向 了 hpet time init), —1J 
从 这 里 开始 ， 进 入 了 一 个 很 复杂 的 流程 中 ， 如 图 10- 
237 所 示 。 

hpet_time_init() 首 先 调 用 hpet_enable() 试 图 启用 
HPET 定 时 器 ， 如 果 由 于 各 种 原因 不 成 功 ， 就 调用 
setup_pit_timer() 启 用 PIT。 总 而 言 之 ， 最 终 只 会 选 
HPET 和 PIT 中 的 一 个 。 这 两 步 的 执行 过 程 都 颇 为 复 
杂 ， 下 文 详 述 。 我 们 先 来 看 setup_default_timer_irq0， 
该 函数 将 timer_interrupt() 这 个 handler 包 装 到 名 为 irq0 
的 irqaction 中 ， 然 后 调用 setup_irq0 函 数 将 其 注册 到 了 
пао E. 

提示 > 

PIT/HPET 的 中 断 信号 ,会 在 内 核 初始 化 的 后 
期 ， 在 kernel ші Ф, тешр init() > АРС іші. 
uniprocessor) > setup ІО APIC() > check timer(), iX 
sj £ № 10-1884, TARA], ЖЖ f HE Timer 
基本 框架 的 话 可 能 会 直接 惜 挤 。check шег) Е 
常 复 杂 ， 不 过 其 最 终 会 调用 assign irq_vector()， 为 
irq0 分 配 一 个 中 断 向 量 ， 并 将 该 向 量 写 入 连接 着 PIT/ 
HPET 中 断 信 号 的 对 应 的 IO Redirection Table 条 目 中 ， 
从 而 将 PIT/HPET 中 断 信 号 与 rq0 的 handler, timer_ 
interp) AA, RAIA, 


再 来 看 看 timer_interruptO 函 数 ， 其 内 部 没有 什么 
实际 内 容 ， 只 是 调用 了 global_clock_event -> event - 
handler()， 似 乎 这 个 才 是 真正 的 时 钟 中 断 服务 程序 。 
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global clock _event 实 际 上 是 一 个 struct clock event | 
device( }， 表 哥 在 其 他 步骤 СА КЭС) 中 会 将 PIT 或 
者 HPET 对 应 的 clockevent 描 述 结构 体 赋值 给 global_ 
clock_event， 而 且 最 终 会 注册 对 应 的 event_handler 到 
选中 的 心仪 的 clockevent 结 构 体 中 〈 见 下 文 ) 。 

再 来 看 hpet_enable()。 其 首先 调用 hpet_set_ 
mapping() 将 HPET 的 寄存 器 在 物理 地 址 占用 的 1KB 物 
理 地 址 段 映射 到 内 核 虚 拟 地 址 空间 中 ， 该 步骤 位 于 
ioremap_nocache() 函 数 中 。 然 后 读 出 HPET 中 的 配置 寄 
存 器 做 一 些 合法 性 检查 ， 然 后 调用 hpet_clocksource_ 
register() 函 数 将 HPET 注 册 为 clocksource 设 备 ( 这 个 
分 支 下 文 详 述 ) ， 以 及 调用 hpet_legacy_clockevent_ 
register() 函 数 同时 将 HPET 注 册 为 clockevent 设 备 ， 如 
图 10-238 所 示 。 

hpet_legacy_clockevent_register() 首 先 调用 
hpet enable _legacy_int() 将 HPET 配 置 为 使 用 传统 
中 断 方式 ， 也 就 是 10.7.1.3 节 中 给 出 的 原理 。 然 后 
对 hpet_clockevent 结 构 体 的 其 他 字段 做 初始 化 填 
充 。 之 后 调用 clockevents_register_device() 函 数 注册 
hpet_clockevent 设 备 ， 所 谓 注册 其 实 就 是 将 对 应 的 
clockevent 结 构 体 加 入 到 全 局 变量 clockevent_devices 
链表 中 。 然 后 将 hpet_clockevent 结 构 体 赋值 给 global_ 
clock_event， 如 上 文 所 述 ，timer_interrupt() 就 是 调用 
global_clock_event->event_handler0， 但 是 此 时 还 并 没 
有 对 该 字段 赋值 。 由 于 新 加 入 一 个 clockevent 设 备 ， 
所 以 接着 调用 clockevents_do_notify0) 函 数 触发 内 核 通 
知 链 机 制 〈 该 分 支 下 文 详 述 ) 。 

先 来 看 看 注册 clocksource 设 备 的 过 程 ， 如 图 10-239 
所 示 。hpet_clocksource_register() 中 先 调用 hpet_restart_ 
counter() 打 开 HPET 让 它 走 走时 ， 然 后 通过 TSC 的 值 
来 检验 HPET 是 否 真 的 好 用 ， 不 好 用 则 直接 将 其 禁 
用 。 好 用 ， 则 最 终 调用 clocksource_register_hz() 注 册 
clocksource 设 备 。 所 谓 注册 ， 就 是 调用 clocksource_ 
enqueue() 函 数 将 clocksource 设 备 对 应 的 结构 体 

(clocksource_hpet) 挂 接 到 全 局 链表 clocksource_ 
list 中 。 

注册 完 clocksource 设 备 之 后 ， 调 用 clocksource_ 
select() 函 数 ， 将 方才 新 注册 的 clocksource 设 备 与 
clocksource_list 中 所 有 登记 的 clocksource 设 备 相 比 
较 ， 看 看 哪个 品质 最 优 ， 如 果 新 加 入 的 最 好 ， 那 就 
将 其 放置 在 clocksource_list 中 的 第 一 个 位 置 。 做 完 
这 一 步 之 后 ， 还 需要 调用 timekeeping_notify() 来 处 
理 一 系列 的 处 理 ， 最 终 调用 change_clocksource() 函 
数 将 新 当选 的 clocksource 设 备 登 记 注册 到 timekeeper. 
clock 字 段 中 。 
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MIN PROG DELTA 


iC PER NSEC 


k event device "деу 


. delta2ns(HPET. 
&hpet, cLockevent); 
hpet clockevent.cpumask = cpumask of(smp processor id()); 


register(voii) 
clockevents register device(&hpet clochevent); 


dev); «=‏ ر 


raw spin unlock irqrestore(&clockevents lock, flags); 


<- 


UNUSED); 


= clockevent, delta2ns(Ox7FFFFFFF, 


&hpet cLockevent); 
device(struct cloc! 


t cLockevent 


K EVT NOTIFY ADD. 
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CLOCK EVT MODE 


y (CLOCI 


Жу released(); = 


clockevents noti: 


(&dev-»list, &clockevent devices); Ф 


L cLoch event = &hj 


(ldev->cpumask); 
raw spin lock irqsave(&clockevents lock, flags); 


(деу->тоде ! 
list addi 


t clockevent.min delta ns = clockevent 


t clochevent.max delta ns 


clockevents do notif) 


hpet clockevent.mult = div sc((unsigned long) FSE 


һре< enable legacy int(); 
printk(KERN DEBUG "hpet clockevent 


globa 


вре 
hpe 
unsigned long flags; 


Static void 
void clockevents re 
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图 10-238 ”hpet_enable() 下 游 作用 原理 
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> clocksounce %5\п", best-»name); 


best = cs; 


break; 
printk(KERN INFO " 


if (cur clocksource |= best) ( 


H 


) 


e list; 


гу = &clocksourc 
осквомгсе list, list 


(&cs-»list, entry); q— 


struct list head "enti 


list addi 


сиғғ. clochsource = best; 


tinekeeping notify(curr. clocksource); = 


(struct clocksource *elock) 


== clock) return; 


logksource, clock, NULL) j 


if (timekeeper. clock 


stop machine(change c: 
tick clock noti: j 


hine( fn, data, cpus); 
图 10-239 ”clocksource 设 备注 册 过 程 
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再 返回 来 看 clockevent 设 备 的 注册 过 程 ， 还 没 
完 。 新 注册 的 clockevent 设 备 不 需要 重新 竞选 一 次 
Z? 需要 。 我 们 继续 从 clockevent_do_notify(0) 开 始 ， 
由 于 新 加 入 ， 根 据 图 10-232 中 所 示 ,，CLOCK_EVT_ 
NOTIFY_ADD 事 件 对 应 着 tick_check new_device()， 
顾名思义 ， 其 内 部 会 进行 比较 然后 选 出 最 优 的 获胜 
者 ， 并 将 唯一 获胜 者 登记 到 全 局 变量 tick_cpu_device 
中 《该 变量 每 个 CPU 都 有 一 份 ) 。 

如 图 10-240 左 侧 所 示 ， 首 先 将 本 CPU RAP 
尚未 被 唤醒 运行 ， 那 么 指 的 就 是 BSP) 对 应 的 tick | 
cpu_device 指 针 赋 值 给 变量 td， 如 果 td->evtdev 不 是 
NULL， 则 证 明之 前 已 经 选 出 了 最 优 的 clockevent 设 
备 ， 则 进入 竞选 流程 ， 首 先 新 设备 是 不 是 可 以 给 本 
CPU 发 出 中 断 〈mask 字 段 有 没有 被 人 为 屏蔽 掉 某 些 
CPU) ， 如 果 不 可 以 ， 则 判断 该 设备 是 否 支持 设置 
中 断 Affinity， 因 为 虽然 mask 中 表明 该 设备 不 能 给 
本 CPU 发 中 断 ， 但 是 如 果 能 够 设置 Affinity， 就 可 以 
强制 让 其 将 中 断 发 给 本 CPU， 还 是 可 以 用 的 。 如 果 
支持 设置 Affinity， 则 再 判断 ， 如 果 当 前 td 中 已 经 登 
记 有 设备 而 且 现 有 设备 在 mask 中 明确 表明 可 以 服务 
于 本 CPU， 那 就 没 必 要 用 新 设备 替换 现 有 设备 ， 竞 
争 失败 。 而 如 果 现 有 设备 的 mask 中 也 不 是 服务 于 本 
CPU 的 《暗示 着 表 哥 当初 是 通过 set affinity 强 制 指派 
给 本 CPU 的 ) ， 那 么 就 继续 竞争 。 此 时 ， 如 果 td 中 并 
没有 登记 有 有 效 设 备 ， 那 么 待 注册 的 新 设备 直接 获 
胜 ， 如 果 td 中 登记 有 有 效 的 现 有 设备 ， 那 么 开始 比 对 
新 设备 是 否 支持 on-shot 模 式 ， 如 果 现 有 设备 支持 而 
新 设备 不 支持 ， 竞 争 失败 ， 否 则 进入 下 一 步 ， 如 果 
新 设备 的 rating 值 高 于 现 有 设备 ， 那 么 新 设备 最 终 夺 
得 优势 获胜 。 

下 一 步 进 入 clockevents_exchange_device()， 将 现 
有 设备 禁用 通过 调用 现 有 设备 对 应 的 clockevent 结 
构 体 中 的 set_ mode 回 调 函数 去 设置 硬件 寄存 器 ) ， 
并 从 clockevent_device 变 量 中 摘 下 ， 然 后 加 入 全 局 变 
量 clockevents_released 链 表 中 。 然 后 进入 tick_setup_ 
device()， 先 判断 td 中 是 否 已 经 登记 有 设备 ， 如 果 没 
有 ， 同 时 全 局 变量 tick_do_timer_cpu 的 值 为 TICK_ 
DO_TIMER_BOOT 的 话 ， 那 么 将 本 CPU 作 为 负责 调用 
do_timer() 的 CPU。 这 里 跨度 较 大 ，do_timer0 中 负责 
更 新 系统 的 绝对 时 间 等 全 局 性 的 工作 ， 每 次 tick 中 断 
到 来 时 只 有 一 个 CPU 来 负责 调用 do_timer0 就 好 了 ， 一 
开始 被 设置 为 BSP， 这 一 步 就 是 在 尝试 将 do_timer0 的 
工作 从 BSP 转移 到 其 他 任意 一 个 CPU 上 《〈 本 CPU) ， 
而 tick 中 断 下 游 的 步骤 中 会 判断 当前 CPU 是 否 是 tick_ 
do_timer_cpu 指 定 的 那个 ， 如 果 不 是 则 不 调用 do _ 
timer()。 现 在 你 该 明白 图 10-232 中 的 tick_handover_ 
do_timer() 的 含义 了 吧 。 然 后 初始 化 全 局 变量 tick_ 
period 为 /HZ 并 转 成 纳 秒 。 
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册 到 该 变量 中 的 ， 我 们 下 文中 马上 就 会 


调用 tick_setul 


жн. 
其 内 部 继 


= 
< 


p. periodic() Pi 


续 调用 tick_set 


, 


E 


_ periodic 


handler() 函 数 为 广播 设备 注册 一 个 
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如 图 10-242 所 示 ， 广 播 中 断 handler 做 的 就 是 调用 被 中 断 CPU 的 tick_cpu_ 
device 中 对 应 的 clockevent 设 备 的 broadcast 回 调 函 数 〈 图 10-226 及 下 方 描述 ) 

再 说 回来 。 如 果 最 终 成 功 切换 到 中 断 广播 模式 ， 则 外 层 函 数 直接 返回 。 
如 果 检 查 发 现 新 设备 好 用 ， 则 返回 到 如 图 10-240 所 示 的 tick_setup_deviceO 
中 继续 ， 判 断 是 否 td 中 的 mode 标 记 为 周期 性 模式 ， 是 则 调用 tick_setup_ 
periodicO 将 tick handle periodic0O 注 册 为 该 设备 的 中 断 handler， 不 是 则 证 明 
是 One-Shot 模 式 ， 则 调用 tick _setup_oneshotO0， 将 被 奉 换 的 旧 设备 的 handler 
和 next_event 回 调 函数 原封 不 动 地 登记 到 新 设备 的 clockevent 结 构 体 中 ， 实 际 
上 这 个 handler 依 然 是 tick_handle_periodic()， 因 为 第 一 个 被 登记 的 设备 总 会 
导致 td 的 mode 被 设置 为 周期 性 模式 ， 从 而 导致 handler 被 设置 为 tick handle _ 
periodic()， 会 继承 下 来 。 到 此 ，tick_setup_device0 就 执行 完 、 返 回 了 ， 并 且 
会 导致 外 层 函 数 tick_check_new_device() 也 返回 。 

还 得 说 回来 ， 夺 冠 失 败 的 新 设备 ， 或 者 被 打败 的 旧 设 备 ， 它 们 得 不 了 
金牌 ， 但 是 仍 有 希望 冲击 银牌 ， 那 就 是 去 担任 中 断 广播 设备 。 代 码 中 频频 
出 现 的 “goto out bc” 就 是 走 入 了 这 个 分 支 。 被 奉 换 下 来 的 旧 设备 会 进入 
clockevents_released 链 表 之 后 就 没 了 动静 ， 一 直到 代码 返回 到 clockevents_ 
do_notify()、clockevents_register_device() 之 后 ， 会 继续 执行 clockevents_ 
notify released(). 

如 图 10-243 左 侧 所 示 ， 该 函数 内 部 会 检查 clockevents_released 链 表 是 
否 为 空 ， 不 为 空 ， 则 将 其 中 被 替换 下 来 的 clockevent 结 构 体 摘出 来 ， 重 新 
加 回 到 clockevent_devices 链 表 中 ， 从 掉队 成 员 重新 变 为 大 部 队 成 员 。 同 时 
接着 调用 clockevents_do_notify()， 走 内 核 通 知 链 渠 道 ， 你 可 能 有 个 疑惑 ， 
这 不 相当 于 再 次 将 被 替换 下 来 的 设备 重新 注册 么 ? 都 被 蔡 换 了 为 何 要 加 
回去 ? 被 替换 下 来 不 等 于 没事 做 了 ， 要 继续 发 挥 余热 ， 说 不 定 可 以 退 居 二 
线 ， 也 就 是 成 为 中 断 广播 设备 。 所 以 ， 被 替换 的 设备 ， 与 那些 头 次 加 入 竞 
争 即 被 淘汰 落选 的 设备 一 同 ， 进 入 tick_check_new_device() 结 尾 的 out_bc 标 
记 处 执行 tick_check_broadcast_device()。 

如 图 10-243 右 侧 所 示 ， 全 局 变量 tick_broadcast_device 一 开始 一 定 是 空 
的 ， 第 一 个 退 居 二 线 的 clockevent 设 备 只 要 其 feature 字 段 中 不 包含 CLOCK | 
EVT_FEAT_C3STOP 位 ， 一 定 会 成 功 担任 中 断 广 播 设备 。 如 果 已 经 有 了 旧 
设备 ， 那 么 竞争 该 岗位 的 新 加 入 设备 就 必须 多 竞争 一 个 rating 项 目 ， 也 就 是 
看 看 谁 的 段位 天 生 更 高 。 竞 争 成 功 ， 则 其 clockevent 结 构 体 会 被 登记 到 tick_ 
broadcast_device 中 ， 称 为 该 岗位 实际 拥有 者 。 刚 竞聘 成 功 ， 就 得 立即 干 
活 了 ， 可 以 看 到 代码 中 接着 用 tick_get_broadcast_mask() 取 出 全 局 变量 tick_ 
broadcast mask〈 还 记得 10.7.2.5 节 中 提 到 过 的 那个 mask 么 ? REC) Wu 
mask 中 有 不 为 0 的 位 ， 证 明 已 经 有 CPU 核 心 申请 向 它 开炮 了 ， 那 么 就 立即 调 
用 tick_broadcast_start_periodic0 启 动 中 断 广播 。 

观察 图 10-232 中 的 tick_notify() 中 ， 可 以 看 到 当 内 核 通 知 链接 收 到 
CLOCK EVT NOTIFY BROADCAST ON 和 CLOCK_EVT NOTIFY | 
BROADCAST_ENTER 的 时 候 ， 会 分 别 调用 tick do broadcast on off()fl 
tick_broadcast_oneshot_control()， 前 者 负责 一 些 准 备 工作 ， 后 者 则 真正 
启动 中 断 广播 。 

至 于 hpet_enable() 失 败 之 后 ， 会 进入 setup_pit_timer()， 篇 幅 所 限 就 
不 多 介绍 了 ， 其 过 程 非常 类 似 。 最 后 ，late_time_init() 的 最 后 一 步 是 调用 
tsc_init() 来 初始 化 TSC， 其 内 部 会 做 一 些 校 准 等 动作 ,但 是 并 没有 调用 
clocksource_register_hz() 来 注册 clocksource 设 备 ， 这 一 步 被 留 在 了 后 续 步 
又 中 进行 。 
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10.7.4.6 АРІС init uniprocessor() 


与 APIC 相 关 的 初始 化 操作 被 放 在 了 后 期 的 kernel_ 
init 内 核 线程 中 调用 APIC init uniprocessor0 进 行 ， 如 
10-244 所 示 。 在 setup_boot APIC_clockO 函 数 中 ， 
会 调用 calibrate АРІС сіоск()Р4 Ж. оса! Timer 进 行 
校准 ， 至 于 具体 的 校准 方式 大 家 可 以 自行 了 解 。 校 准 
通过 后 ， 调 用 setup_APIC _timer()， 后 者 先 根据 X86_ 
FEATURE _ARAT 判 断 APIC Local Timer 是 否 不 受 核心 
进入 低 功 耗 的 影响 ， 如 果 是 ， 则 清 掉 lapic_clockevent. 
feature 中 的 CLOCK_EVT_FEAT_C3STOP 位 ， 这 样 的 
话 中 断 广播 硬件 基本 上 就 没有 什么 作用 。 最 终 ， 调 
用 clockevents_register_device() 注 册 lapic_clockevent。 
可 以 预知 的 一 点 是 ，Local Timer 将 最 终 替 代 HPET 之 
前 所 处 的 tick_cpu_device 地 位 ，HPET 则 退 居 二 线 成 
为 中 断 广播 的 担任 者 。 最 终 ， 函 数 返 回 到 setup_boot_ 
APIC_clock()， 继 续 执 行 lapic_clockevent.features &= 
~CLOCK_EVT_FEAT_DUMMY 这 句 ， 将 Local Timer 
的 假 货 帖 子 撕 下 来 ， 成 为 名 系统 内 副 其 实 的 最 精 贵 最 
好 用 的 clockevent 设 备 。 

Local Timer 初 始 化 之 后 ， 全 局 变量 lapic_events 
和 tick_cpu_device 同 时 都 指向 lapic_clockevent。Local 
Timer 中 断 发 生 后 ， 代 码 从 lapic_events 中 提取 对 应 的 
handler 指 针 执行 。 


10.7.4.7 do_basic_setup()/do_initcalls() 


时 间 子 系统 初始 化 的 最 后 剩余 步骤 ， 被 封装 到 了 
do_initcalls() 中 ， 该 函数 会 批量 执行 一 些 后 期 函数 ， 
内 核 代码 将 需要 在 后 期 执行 的 初始 化 函数 利用 诸如 
device_initcall、fs_initcall 之 类 的 宏 定 义 注册 到 系统 
中 ， 这 些 initcall 之 间 可 能 有 依赖 关系 ， 所 以 其 各 自 
具有 不 同 的 level 等 级 ， 等 级 高 的 〈 最 高 1 级 ) initcall 
必须 先 于 等 级 低 的 (最 低 7 级 ) 执行 ， 同 一 个 等 级 内 
部 又 可 以 有 多 个 互相 不 依赖 的 inticall。do_initcalls() 
会 按照 等 级 顺序 执行 所 有 的 initcall 函 数 。 如 图 10-245 
所 示 。 

其 次 ， 系 统 还 使 用 了 DECLARE DELAYED_ 
WORK 宏 来 创建 了 一 个 待 注入 到 内 核 workqueue 中 的 
名 为 tsc_irqwork 的 work， 该 work 包 含 着 待 执行 函数 
tsc refine calibration work(0。workqueue 机 制 在 上 文 
中 已 经 介绍 过 了 ， 并 提 到 它 并 不 是 中 断 下 半 部 专用 ， 
而 是 一 种 通用 的 将 待 执行 函数 延 后 执行 的 一 种 机 制 。 

可 以 看 到 在 init_tsc_clocksource() 中 ， 利 用 schedule_ 
delayed_work() 正 式 将 tse_irqwork 下 发 到 workqueue 
执行 。 


10.7.4.8 初始 化 流程 全 局 图 


由 于 时 间 管 理 模块 非常 复杂 ， 为 了 便于 梳理 思 
路 ， 冬 瓜 哥 制作 了 如 下 三 张 流程 图 ， 如 图 10-246 一 图 
10-248 所 示 。 


第 10 章 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 加 于 本 呀 


提示 > 


这 里 提醒 读者 注意 的 一 点 是 ， 读 者 可 能 对 
“handler” ZAA SILT o tirg P HR 
生 之 后 ， 首 先 执行 的 是 common interrupt 这 段 汇编 
代码 ， 你 称 之 为 Iq0 的 handler 也 不 为 过 ,但 是 它 
会 继续 调用 到 do IRQ( > handle irq() > irq0 对 应 的 
handler ( 比如 handle edge irq()) ， 这 个 handle_ 
edge_irq 也 是 在 内 核 初始 化 时 被 注册 上 去 的 ， 内 核 
根据 不 同 条 件 可 以 注册 不 同 的 irq0 总 handler。 然 而 
这 还 没完 ， 该 函数 会 继续 调用 handle_irq_eventO > 
handle irq event percpu() > 后 期 注册 的 中 断 服务 
а Жиппег interrupt()， 这 个 timer_interrupt() 也 可 以 
说 是 一 个 handler， 是 在 hpet_time_ init() 中 注册 上 
去 的 ， 然 而 ， 这 依然 没完 。 它 会 继续 调用 global_ 
clock_event->event_handler()， 该 event_handler() 则 
是 被 clockevents register device() 下 游 根据 各 种 条 件 
注册 上 去 的 ， 比 如 如 果 是 tick_cpu_device， 则 注册 
tick_handle_periodic()， 如 果 沦 为 中 断 广播 设备 ， 
则 注册 tick_handle_periodic_broadcast() 上 去 ， 而 这 
最 后 一 层 handler， 才 是 最 终 负 责 处 理 该 时 钟 中 断 
的 handler。 而 Local Timer 由 于 属于 系统 级 设备 ， 
其 中 断 流程 更 简洁 一 下 ，239 向 量 中 断 之 后 直接 跳 
转 到 smp_apic_timer_interrupt() > local_apic_timer_ 
interrupt() > lapic_events->event_handler()。 


10.7.5 #874072) 


正常 情况 下 ，HPET 在 一 开始 初始 化 时 会 登 上 
tick_cpu_device 的 报错 ， 但 是 在 Local Timer 初 始 化 之 
后 便 沦 为 中 断 广播 设备 ， 被 注入 tick_handle_periodic_ 
broadcast() 这 个 handler， 并 被 登记 到 tick_broadcast_ 
device 变 量 中 ， 在 irq0 中 断 下 游 待命 。 后 来 居 上 的 
APIC Local Timer 成 为 每 个 CPU 的 tick cpu device, 也 
就 是 每 个 CPU 正式 使 用 的 clockevent device。 而 TSC 
将 会 成 为 最 优 的 clocksource device， 相 应 的 设备 结构 
体 指针 被 登记 到 timekeeperclock 字 段 中 。 所 以 ， 如 果 
CPU 核心 的 Local Timer 支 持 x86_FEATURE_ARAT， 
那么 其 不 会 随 核心 一 同体 眠 ， 也 就 不 需要 中 断 广播 设 
备 的 辅助 ， 这 样 的 话 irq0 在 系统 启动 之 后 ， 除 非 有 其 
他 需求 主动 让 其 发 出 中 断 ， 否 则 它 不 会 再 发 出 任何 
中 断 。 

基于 上 述 正 常 场景 ， 本 节 就 从 中 断 为 源头 ， 看 看 
时 钟 中 断 发 生 之 后 ， 上 述 介绍 的 这 些 零 部 件 是 如 何 联 
动 的 。 
10.7.5.1 初始 的 低 精度 +HZ 模 式 


Local Timer 夺 冠 tick_cpu_device 成 功 后 ， 会 被 注 
册 上 一 个 tick_handle_periodic() 的 handler。 我 们 的 旅程 
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10-248 时间 管理 初始 化 流程 图 (2) 


从 Local Timer 发 出 了 中 断 开 始 。 中 断 向 量 239 > smp_ 
apic timer interrupt() > local apic timer interrupt() > 
lapic events-»event handler0)。 该 handler 当 然 就 是 tick _ 
handle periodic0， 如 图 10-249 所 示 。 

该 函数 首先 执行 tick_periodic0， 返 回 后 判断 是 否 
Local Timer 被 配置 为 One-Shot 模 式 ， 如 果 不 是 则 表明 
其 一 定 处 于 周期 性 自动 发 出 中 断 模式 ， 无 须 多 担心 ， 
直接 返回 完成 本 次 中 断 处 理 。 如 果 是 ， 则 将 下 一 次 到 
期 值 写 入 Local Timer 寄 存 器 完成 接续 。tick_periodic0 
函数 首先 判断 全 局 变量 tick_do_timer_cpu 的 值 是 不 是 
与 当前 处 理 中 断 的 CPU 的 ID 值 相等 ， 如 果 是 则 调用 
do_timer() 来 更 新 系统 绝对 时 间 ， 同 时 更 新 保存 了 系统 
经 历 过 的 tick 数 量 的 jiffies_64 变 量 。 

下 一 个 工作 则 是 update_process_times0， 这 个 函数 
也 非常 重要 ， 它 首先 调用 run_local_timers() 查 找 并 处 理 
系统 内 当前 到 期 的 所 有 Timer， 由 于 系统 内 可 能 存在 
位 于 时 间 轮 上 的 低 精度 Timer 和 位 于 红 黑 树 中 的 高 精 
度 Timer， 所 以 run_local_timer() 内 部 分 别 调用 hrtimer_ 
run queue() > __run_hrtimer() 处 理 高 精度 Timer 以 及 调 
用 raise_softirq(TIMER_SOFTIRQ) 激 活 软 中 断 处 理 函 数 
run timer softirq(0) 延 后 执行 ， 它 会 调用 ”rn _timers0 来 
处 理 低 精度 Timer。update_process_times0 中 的 第 二 个 重 
要 任务 就 是 调用 scheduler tick0， 该 函数 我 们 在 介绍 任 
务 调度 时 已 经 介绍 过 了 。 

可 以 看 到 ， 即 便 程 序 注册 了 高 精度 定时 器 ， 此 时 
也 会 以 低 精度 来 处 理 ， 因 为 此 时 运行 在 依靠 外 部 硬件 
周期 性 发 出 中 断 的 模式 ， 而 HZ/tick period 这 个 变量 用 
于 控制 每 个 周期 的 长 短 ， 周 期 并 不 会 被 设置 的 太 短 ， 
否则 系统 频繁 被 中 断 会 卡 死 。 既 然 如 此 ， 就 无 法 保证 


高 精度 定时 器 达到 预定 精度 ， 高 精度 定时 器 而 只 能 临 
时 被 亏 待 一 下 了 。 

这 里 可 能 有 个 疑惑 ， 既 然 有 了 高 精度 Timer 模 
块 ， 为 何 还 要 保留 低 精度 模块 ， 就 算 程序 只 需要 低 精 
度 Timer 就 够 了 ， 但 是 统一 使 用 高 精度 并 没有 什么 影 
响 。 其 实 ， 保 留 低 精度 模块 以 及 对 应 的 函数 接口 完全 
是 为 了 兼容 性 考虑 ， 一 些 老 的 内 核 程 序 依然 调用 的 是 
低 精度 Timer 的 一 些 函数 。 

系统 管理 员 可 以 决定 将 当前 内 核 运行 在 兼容 
模式 ， 还 是 纯粹 的 高 精度 Timer 模 式 ， 这 个 可 以 通 
过 系统 编译 选项 CONFIG_HIGH RES_TIMERS 以 
及 启动 命令 行 参数 setup_hrtime_hres 来 控制 。 但 
是 ， 配 置 了 这 些 选项 之 后 ， 内 核 也 并 不 是 一 开始 就 
完全 运行 在 高 精度 模式 ， 而 是 后 续 是 从 低 精 度 切 
换 到 高 精度 模式 的 ， 具 体 的 切换 过 程 ， 就 隐藏 在 
TIMER_SOFTIRQ 的 run_timer_softirq() > hrtimer_ 
run_pending() 中 。 如 果 运 行 在 低 精 度 模式 下 ， 则 每 次 
中 断 之 后 的 软 中 断 过 程 中 都 会 调用 该 函数 来 检测 并 
尝试 切换 到 高 精度 模式 ， 但 是 否 能 切换 到 高 精度 模 
式 ， 取 决 于 一 些 条件 。 


10.7.5.2 ”切换 到 低 精 度 +NOHZ 模 式 


继续 往 下 看 之 前 ， 先 介绍 一 个 全 局 变量 struct 
tick sched tick cpu sched( }。 还 记得 10.7.2.3 节 中 介 
绍 过 的 软 tick 么 ?用 一 个 软 Timer 来 模拟 Tick 的 发 生 ， 
如 图 10-250 所 示 。tick_cpu_sched 结 构 体 中 登记 的 就 是 
用 于 软 tick 的 相关 参数 控制 信息 ， 其 中 ，struct hrtimer 
sched timer 就 是 用 于 模拟 软 tick 的 定时 器 。 还 有 其 他 
一 些 字段 ， 会 随 着 下 文中 的 分 析 有 所 涉及 。 
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是 将 周期 性 产生 tick 的 软 timer， 也 就 是 包含 实际 执行 
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下 次 中 断 


到 这 基本 上 就 完成 了 高 精度 模式 的 切换 ， 
到 来 之 后 ， 运 行 的 便 是 hrtimer interupt 了 ， 如 图 10-253 所 


会 判断 函数 的 返回 


定时 器 中 注册 的 handler 函 数 之 后 ， 
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值 ， 如 果 不 为 HRTIMER _NORESTART， 证 明 handler 


希望 继续 将 这 个 定时 器 挂 到 红 黑 树 中 Chandler А C. 
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很 难 一 眼看 出 哪 


句 代 码 到 底 是 做 什么 用 的 ， 为 什么 会 在 这 儿 。 


式 ， 则 hrtimer_runqueues() 什 么 都 不 做 直接 返回 。 内 
核 代码 中 有 很 多 地 方 可 谓 是 错综复杂 ， 如 果 没 有 站 
运行 ， 


以 看 到 ， 该 代码 首先 执行 了 if (hrtimer hres_active0) 
在 全 局 观 来 端详 这 台 机 器 的 


是 在 图 10-249 中 的 hrtimer_runqueues() 实 现代 码 中 可 
Teturn， 也 就 是 说 ， 如 果 目 前 已 经 切换 到 高 精度 模 
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低 精 度 模式 ， 那 么 tick nohz handler0 依 然 会 每 次 都 配 
置 tick_period 固 定时 间 来 重新 配置 硬件 ， 而 如 果 是 进入 
NOHZ+ 高 精度 模式 ， 那 么 由 于 会 被 强行 注册 一 个 sched_ 
timer， 该 timer 会 内 部 每 次 也 会 配置 fick_period 时 间 到 硬 
件 中 。 所 以 ， 依 然 避 免不了 被 周期 性 地 唤醒 。 

为 此 ，cpu_idle() 函 数 中 会 调用 tick_nohz_stop_ 
sched_tick() 函 数 来 将 下 一 次 tick 的 时 间 设 置 为 下 一 个 
到 期 的 〈 低 精度 和 高 精度 一 起 算 ) 软 定时 器 的 时 间 。 
这 样 ， 在 低 精度 模式 下 ， 从 当前 一 直到 下 一 个 定时 器 
到 期 这 段 时 间 内 ， 不 会 再 有 时 钟 中 断 产生 。 但 是 当下 
一 次 中 断 到 来 之 后 ，tick_handle_periodic() 被 触发 执 
行 ， 但 是 这 个 handler 依 然 会 将 tick_period 这 个 固定 时 
间 再 次 编程 到 硬件 ， 又 恢复 了 周期 性 tick。 为 此 ， 内 
核 在 irq_exit0 结 尾 增加 了 一 句 代码 : if (idle cpu(smp_ 
processor id()) && "іп interrupt() && !need resched()) 
tick nohz stop sched tick(0)， 也 就 是 判断 如 果 时 钟 
中 断 发 生 时 正 处 于 idle 任 务 中 ， 并 且 need_resched 标 记 
没有 被 设置 ( 暗 指 本 次 中 断 完成 后 并 没有 激活 其 他 任 
务 ) ， 并 且 所 有 中 断 都 已 经 处 理 完 ， 那 么 就 再 次 调用 
tick nohz stop sched tick0 将 下 一 次 中 断 设 定 为 最 最 
早 到 期 的 那个 定时 器 的 时 间 。 而 由 于 need_resched 未 
被 置 位 ， 则 本 次 中 断 继续 返回 idle 任 务 继续 休 眼 。 

有 个 疑问 ， 如 果 系 统 当前 没有 任何 定时 器 被 激 
活 ， 同 时 也 没有 什么 可 运行 的 任务 ， 此 时 难道 需要 将 
下 一 次 tick 时 间 设 置 为 无 穷 大 ? 当然 不 行 ， 于 是 有 这 
么 一 个 变量 来 限制 最 大 的 拖 后 时 间 : timekeeperclock- 
>шах іШе ns， 也 就 是 当前 正在 使 用 的 clocksource 设 
备 结构 体 中 的 max_idle_ns 字 段 。 当 然 ， 如 果 即 将 到 
期 的 定时 器 与 当前 时 间 离 得 太 近 了 ， 比 如 只 差 了 一 个 
tick 的 时 间 ， 那 证 明 马上 就 要 到 期 ， 也 就 不 需要 再 拖 
后 一 个 tick 了 ， 否 则 就 超期 了 。 

而 如 果 运 行 在 高 精度 模式 下 ， 由 于 hrtimer_ 
interrupt() 本 身 已 经 是 将 下 一 次 中 断 时 间 设 置 为 最 早 到 
期 的 Timer 的 时 间 ， 所 以 该 场景 下 会 直接 将 sched_timer 
的 tick 周 期 值 设 置 成 最 早 的 其 他 定时 器 到 期 时 间 ， 也 
就 是 说 ， 让 sched_timer 跟 着 最 早 的 那个 定时 器 一 同 到 
时 ， 从 而 可 以 不 耽误 执行 do_timerO、update process - 
times0 等 。 

做 完 上 述 准备 之 后 ，idle 进 程 便 会 进入 休眠 过 程 。 
一 个 疑问 是 ， 难 道 此 时 系统 真 的 没有 其 他 任务 在 运行 
ТА? 没 了 。 如 果 突 然 又 有 了 ， 但 是 idle 正 在 睡觉 不 知 
道 怎 么 办 ? 不 会 的 ， 因 为 之 所 以 能 进入 idle， 证 明 其 他 
的 任务 都 在 等 待 某 种 事件 而 休眠 了 ， 而 这 些 事件 一 定 
是 靠 定 时 器 中 断 、 外 部 设备 中 断 来 触发 的 。 所 以 ， 如 
果 定 时 器 既 没有 到 时 ， 又 没有 发 生 外 部 中 断 的 话 ，iqle 
就 可 以 一 直 运行 ， 不 过 运行 过 程 中 要 关闭 对 外 部 中 断 
的 响应 ， 这 样 岂 不 是 永远 不 会 退出 idle 了 人 么 ? 

当 发 生 外 部 中 断 时 ，CPU 硬 件 会 启用 内 部 的 一 些 
时 钟 信号 源 ， 重 新 把 逻辑 电路 驱动 起 来 ， 但 是 并 不 会 
立即 响应 该 中 断 ， 因 为 idle 在 让 CPU 进入 休眠 之 前 已 
经 禁止 了 外 部 中 断 响应 。 这 样 做 是 因为 解 铃 还 须 系 铃 
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人 ， 当 初 idle 让 CPU 进入 休眠 状态 ，CPU 收 到 中 断 要 
醒 来 之 前 ， 不 能 一 下 子 就 进入 中 断 上 下 文 ， 因 为 醒 来 
之 后 还 需要 idle 来 设置 一 些 必要 参数 之 后 ，idle 打 开 中 
断 响应 ， 此 时 进入 中 断 处 理 过 程 。 

如 图 10-254 所 示 ，idle 会 在 start_critical_ timeings0 中 
打开 中 断 响应 ， 此 时 立刻 进入 中 断 流程 ，idle 任 务 被 中 
断 在 start_critical timeings0 中 。 如 果 本 次 中 断 并 没有 导 
致 任何 任务 被 唤醒 ， 那 么 idle 任 务 的 need_resched 标 记 依 
然 为 0， 那 么 中 断 返 回 时 依然 返回 到 idel， 继 续 执行 ， 
从 而 再 次 进入 内 层 while 循 环 ， 继 续 休眠。 


void cpu, idle(voia) 
í int cpu = smp processor id(); 
boot init stack canary(); 
current thread info()-»status |- TS POLLING; 
while (1) ( 
tick nohz stop sched tick(1); 
while (!need resched()) ( 
check pgt cache(); 
rmb(); 
if (cpu is offline(cpu)) play, dead();| 
local irq disable(); 
stop critical timings(); 
pm idLe(); 
start critical timings();) 
tick nohz restart sched tick(); 
preempt enable no resched(); 
schedule(); 
preempt disable(); 


« end cpu idle » 
[ 10-254 cpu idle() 原 理 


而 如 果 中 断 期 间 激 活 了 新 任务 ， 则 need_resched 
标记 会 被 置 为 1， 而 且 如 果 内 核 模 块 决定 抢占 当前 任 
务 (idle 任 务 ) 的 话 ， 则 直接 调用 schedule() 切 换 任 
务 ， 在 schedule0 内 部 会 将 被 抢占 任务 的 need_resched 
再 次 置 0。 如 果 系 统 此 时 有 其 他 任务 被 激活 的 话 ，idle 
任务 就 永远 得 不 到 运行 ， 因 为 它 的 优先 级 最 低 。 当 再 
次 万 籁 俱 寂 的 时 候 ，idle 又 开始 运行 ， 它 从 上 一 次 的 
断 点 继续 运行 ， 但 是 此 时 它 的 need_resched 为 0， 所 以 
继续 进入 内 层 while 循 环 ， 让 CPU 进入 休眠 态 。 


10.7.5.5 切换 高 精度 模式 流程 图 
如 图 10-255、 图 10-256 所 示 。 


切换 到 高 精度 模式 之 后 ， idle 会 导致 sched_ 
timer 这 个 软 hrtimer 也 不 会 按照 周期 性 发 出 tick 了 ， 
而 是 跟随 最 早 到 期 的 其 他 hrtimer 一 同 到 期 从 而 完成 
更 新 jiffies 的 工作 。 但 是 这 里 有 个 问题 ，jiffies 表 示 
的 是 系统 经 过 了 多 少 个 tick，tick 必 须 是 跟随 系统 的 
HZ 值 恒定 的 ， 而 idle 会 把 tick 青 成 忽 快 忽 慢 ， 这 是 
不 行 的 。 但 是 tick do update jifñes64 0 在 更 新 jiffies 
时 ， 会 读 取 clocksource 设 备 判 断 idle 期 间 绝对 时 间 流 
逝 了 多 少 ， 从 而 将 该 有 的 tick 数 量 补 齐 。 所 以 该 函 
数 在 调用 do_timer() 时 ,会 将 经 历 的 tick 数 量 作 为 参 
数 传递 给 后 者 。 
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不 得 不 说 表 哥 是 位 真正 的 收藏 家 ， 他 不 但 收藏 
各 种 表 ， 还 将 每 种 表 研 究 得 非常 透彻 ， 管 理 得 井 井 有 
条 并 能 运用 得 出 神 入 化 。 正 如 我 们 了 解 一 个 事物 时 ， 
需要 将 它 精妙 的 结构 剥离 开 ， 然 后 一 样 一 样 地 端详 体 
会 ， 体 会 每 个 零件 在 全 局 框架 中 是 怎么 运作 的 ， 并 能 
够 用 大 脑 充当 CPU， 看 着 代码 把 整个 流程 走 通 一 遍 ， 
Brig Tf. Hoc. 

明白 了 表 哥 底层 的 这 些 名 堂 之 后 ， 就 会 明白 上 
层 的 那些 接口 了 ， 比 如 各 种 与 定时 相关 的 系统 调用 ， 
比如 alarm0 〇 是 通过 设 定 RTC 来 实现 秒 级 的 中 断 ( 通 过 
IRQ8 实 现 ，RTC 的 这 条 定时 器 路 线 由 于 篇 幅 所 限 请 
读者 自行 了 解 ) 、nanosleep() (通过 设 定 一 个 封装 了 
wake_up_process() 这 个 handler 的 hrtimer 来 实现 纳 秒 级 
定时 ) 等 。 


10.8 VFS 与 本 地 FS 


操作 系统 内 核 需要 提供 一 套 完整 的 I/O 控 制 流 
程 ， 准 备 大 量 的 各 种 数据 结构 ， 来 管理 I/O 在 各 个 模 
块 之 间 的 流动 。 这 些 模块 包括 : VEFS 目 录 层 、 页 面 组 
存 层 (Page Cache) 、 文 件 系 统 层 、 网 络 处 理 层 、 通 
用 块 层 、IO 调 度 器 层 、 块 设备 驱动 层 、 外 部 IO 通道 
控制 器 驱动 层 。 上 述 各 个 层次 共同 组 成 了 庞大 复杂 的 
LO 协议 栈 。 

本 书 至 此 ， 想 必 读 者 已 经 初步 了 解 程序 是 如 何 使 
用 IO 设备 的 了 。 最 常见 的 IO 设备 有 三 大 类 : 网 卡 类 
设备 、 存 储 类 设备 、 键 盘 /鼠标 等 交互 式 设 备 。 这 些 设 
备 可 能 以 PCIE 或 者 USB 的 接口 形式 接 入 系统 ， 而 如 何 
从 PCIE 或 者 USB 设 备 发 送 和 接收 数据 ， 在 前 面 章节 中 
也 介绍 过 了 。 问 题 是 ， 向 它们 发 送 的 数据 是 怎么 生成 
并 一 路 发 送 到 设备 驱动 并 发 送 到 设备 的 ? 本 节 就 是 介 
绍 整 个 系统 的 IO 路 径 。 当 然 ， 还 有 显示 类 设备 ， 不 过 
显示 类 设备 的 图 形 生成 和 输出 过 程 在 第 7 章 已 经 介绍 
Ar. 

假设 某 个 用 户 态 程序 想 要 读 取 硬 盘 扇 的 0 号 扇 区 
的 内 容 ， 它 不 能 直接 操作 硬盘 ， 因 为 它 根本 调用 不 
到 硬盘 设备 驱动 程序 提供 的 函数 ， 它 只 能 通过 read 系 
统 调用 来 委托 内 核 代 码 做 这 件 事情 。 在 read 系 统 调用 
的 参数 中 ， 用 户 侧 程序 起 码 要 告诉 内 核 : 读 哪 个 设 
备 、 读 该 设备 的 从 哪 到 哪 的 字 节 、 数 据 读 回 来 放 到 内 
存 哪里 、 其 他 参数 〈 比 如 读 取 时 应 该 以 什么 方式 来 读 
等 ) 。 读 取 文 件 也 一 样 。 

我 们 旅程 的 第 一 站 ， 从 VFS 开 始 。 


10.8.1 VFS 目 录 层 


显然 ， 摆 在 眼前 的 一 个 问题 是 ， 如 何 描述 “哪个 
设备 ”或 者 “哪个 文件 ”。 可 以 使 用 ID 方式 ， 比 如 1 
号 、2 号 设备 /文件 ， 这 样 程序 只 需要 在 一 个 int 类 型 参 


数 中 给 出 数值 就 可 以 了 。 但 是 这 样 极度 不 方便 ， 用 户 
态 程序 难以 根据 ID 来 判断 出 该 设备 到 底 是 什么 类 型 的 
设备 。Linux 其 实 采 用 的 是 以 ASCII 编 码 的 目录 或 者 说 
路 径 名 称 /符号 的 方式 来 描述 一 切 资源 ， 包 括 设备 、 
设备 上 的 文件 等 ， 比 如 /dev/sda 和 /dev/sdb 分 别 表示 
第 一 块 和 第 二 块 SCSI 类 型 的 硬盘 ， 使 用 dd 程序 /命令 
可 以 直接 在 命令 行 下 读 写 该 硬盘 ， 比 如 命令 “dd if=/ 
dev/sda of=/dev/sdb” 就 表示 将 sda 硬 盘 上 的 数据 全 部 
复制 到 硬盘 sdb 上 。 那 么 读者 一 定 会 有 个 猜测 : /dev/ 
sda 的 后 面 一 定 有 某 个 模块 负责 将 LO 请 求 下 发 到 sda 
硬盘 设备 的 驱动 程序 来 执行 ， 是 的 ， 每 个 路 径 符号 
背后 都 会 有 对 应 的 执行 者 。 而 且 也 一 定 有 某 个 模块 
来 负责 记录 哪个 路 径 符号 后 面 对 应 着 哪个 具体 承载 
者 。 必 须 的 。 


10.811 目录 与 VFS 


前 面 章节 中 介绍 过 文件 系统 (File System， 
FS) ，FS 的 作用 就 是 将 硬盘 肩 区 抽象 成 一 个 个 小 的 
存储 空间 ， 每 个 存储 空间 称 为 一 个 文件 ， 多 个 文件 可 
以 放 入 一 个 目录 之 下 。 这 些 文件 和 目录 也 需要 命名 的 
路 径 符号 来 表示 ， 比 如 /abe/1.txt。 那 么 如 何 区 分 某 个 
路 径 符号 到 底 是 一 个 硬件 设备 ， 还 是 硬盘 上 的 文件 
呢 ? 这 就 需要 某 种 约定 ， 比 如 /dev 目 录 下 的 一 般 都 是 
设备 。 

思考 一 下 ， 如 果 系 统 安装 有 两 块 硬盘 ， 使 用 
mkfs 命 令 分 别 将 这 两 块 硬盘 格式 化 出 对 应 的 文件 
系统 (所 谓 格 式 化 其 实 就 是 在 对 应 硬盘 上 创建 一 套 
管理 数据 结构 ， 如 图 $-27 右 下 角 所 示 ) ， 那 么 这 两 
个 硬盘 中 的 文件 和 目录 对 应 的 路 径 符号 应 该 是 什 
А? 如 果 是 Windows 系 统 ， 读 者 都 知道 ， 那 就 是 
硬盘 盘 符 冒号 斜 本 ， 比 如 D:\123\abc.txt， 也 就 是 说 
Windows 将 每 个 硬盘 自身 作为 最 顶层 的 根 目 录 ， 有 几 
块 硬盘 就 有 几 个 根 目录 。 而 Linux 则 不 太一 样 ， 其 只 
有 一 个 根 目 录 ， 也 就 是 /， 任 何 硬盘 中 的 文件 目录 都 
必须 被 挂 接 (Mount) 到 / 下 面 某 个 目录 里 。 比 如 将 
sda 上 的 所 有 文件 目录 挂 载 到 /diska/ 下 ， 可 以 用 命令 
mount /dev/sda /diska， 访 问 /diska 就 相当 于 访问 了 sda 
自身 中 的 文件 目录 。 同 理 ， 可 以 将 sdb 的 文件 挂 载 到 
比如 /diskb， 当 然 也 可 以 将 其 挂 载 到 /diska/diskb 下 ， 让 
其 成 为 /diska 的 一 个 子 目 录 。 其 实 Wndows 也 可 以 将 某 
个 盘整 体 挂 载 到 另 一 个 盘 的 某 个 目录 下 ， 只 是 一 般 没 
人 这 么 去 做 罢了 。 

假设 sda 被 格式 化 为 ext3 文 件 系统 ， 而 sdb 则 为 
ntfs 文 件 系统 ， 它 俩 的 挂 载 点 分 别 为 /diska 和 /diskb， 
当 访 问 这 两 个 目录 时 ， 一 定 会 各 自 调 用 到 不 同 的 访 
问 函 数 ， 因 为 ext3 和 ntfs 文 件 系统 的 组 织 形式 有 很 大 
区 别 。 所 以 一 定 需要 使 用 某 个 数据 结构 〈 比 如 struct 
file operations( } ) 来 保存 针对 不 同文 件 系统 的 访问 函 
数 ， 如 图 10-257 右 侧 所 示 。 如 果 要 实现 一 个 新 的 文件 
系统 ， 就 需要 实现 该 结构 体 中 规定 的 全 部 或 者 部 分 回 


第 10 章 HANERE — HARET A ПЕТИ 


їрәиЗүте-әшүтәцәез Беін 调 函 数 ， 并 注册 到 内 核 中 。 
f “4 Ku aSeueu p, 
Мый SIRE) QUARE у: чаршы Қы 在 对 某 个 硬盘 使 用 某 种 文件 系统 格 
Н °g “= Á. у раје s 
Qu ts amp fe тушр ane) (sun Ds)» amp 式 化 之 后 ， 硬 盘 对 应 的 分 区 表 信息 中 会 被 


tC; Кізшәр 103s) (oseored pz) PTOA 写 入 该 文件 系统 的 名 称 。 当 Mount 该 硬盘 


f(x Kayuəp 32nu3s 35402) (эзэтэр p+) зит Б X ada 
eh BE MO. te шер іле эшо м, REESE RE 
5, apour nas 3502 “„ Алзиар jonas E) зит 载 的 文件 系统 代码 模块 相 匹配 ， 然后 调用 
f(a 1355 32п43$ > N у 
*, epoup ззпаа5 3502 *, Кмаџар 32123 1suo2)(usew p,) aur 对 应 该 文件 系统 注册 的 Mount 回 调 函数 ， 
f(. e3epreueu 32143$ “+ 人 J3uap 352nJ3s)(a3epTTeAaJ p.) зит 将 该 硬盘 上 的 文件 系统 挂 接 到 系统 的 全 局 


} SuoT3eJedo Ku3uep 321435 
目录 中 ， 这 个 过 程 中 需要 调用 该 文件 系统 


29 = ~ 当时 在 super_operations 结 构 体 (如 图 10-258 
LE £ 212 所 示 ) 中 注册 的 一 系列 回调 函数 。 后 续 访 
E 2 410 问 该 挂 载 点 时 ， 统 一 调用 该 文件 系统 注册 
° а - м м 在 file_operations 结 构 体 中 的 回调 函数 来 完 
ЗЕ ~ $ _ Е 成 。 此 外 ， 根 据 需求 ， 文 件 系统 模块 还 需 
pert је EE 423 . 要 注册 inode_operations、dentry_operations、 
tu. PEE Aoa PAg Q9 2 address_space_operations 这 三 张 回调 函数 登记 
dyg 589 ове ЕТЕ | xo 表 到 系统 里 。 在 内 核 源码 的 全 目录 下 ， 存 有 
2285 5052 ERE СЕ Sosa | 2 大 量 不 同 种 类 FS 的 源码 ， 上 述 这 些 回调 函数 
ЗЕЕ 0. 2 йур io 3:3 |2 就 是 在 这 些 源码 中 。 
де SEF 2 Е gAn st 7 Ту 2 上 述 这 套 架 构 就 是 Linux 下 的 Virtual 
бұты Saoi Пуер 29 0 30 | Ë Fie System (VFS) ， 其 通过 一 个 全 局 的 
ҮН HTU НІҢ |2 пжжннкинжндінгзнан 
РЕ КИЕ 三 “来 ， 并 统一 接口 ， 不 同 种 类 的 FS 只 需要 
“МЕЙЕР asr sis СРИ СООРО] 2 实现 对 应 的 回调 函数 注册 到 系统 中 ， 而 需 
а CE P sg |ы 要 读 写 文件 的 代码 只 要 使 用 VFS 提 供 的 统 
| со 一 的 回调 函数 名 称 即 可 ， 而 不 必 去 调用 得 
ФРИ ЫЫЫ g На О TE 
BR dodo Pis s 535: Š шт” VFS 还 可 以 支持 网 络 文件 系统 的 
EHI Но И SSS 2 ЗЕ № : б із 
ETE ЕЕ ОЕ FH Š sq | p 。 持 载 ,也 就 是 将 位 于 网 络 对 方 机 器 上 的 某 个 
四 55, ы JE s| s 目录 持 接 到 本 地 某 个 目录 下 ， 访 问 本 地 的 这 
„БҮДҮР Езмезмеже О eey а eb j| - 个 目录 时 ， 调 用 对 应 的 回调 函数 之 后 ， 底 层 
ие И OTI I 会 调用 NFS/CIFS 这 类 网 络 文件 系统 提供 的 
% 2 具体 访问 函数 ， 后 者 将 访问 请 求 封装 到 TCP/ 
= ”J 包 中 传递 给 对 方 ， 对 方 执行 操作 ， 将 数据 


再 从 网 络 返 回来 。 而 读 写本 地 目录 的 程序 
并 不 知道 该 目录 到 底 位 于 本 地 还 是 远程 〈 当 
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E 
g 
S29 
5 о 
Ф 
ES, 
255 然 它 可 以 通过 一 些 其 他 渠道 来 获知 这 个 事 
E 58 实 ) 。 正 因 如 此 ，VFS 向 上 层 完全 屏蔽 了 底 
g EER > S 层 的 差异 性 ， 这 也 是 其 被 称 为 Virtual FS 的 
33 2 ° 8 22-4 o о 8% 原因 
tl 589558 So, СЕ | 
58555 ЕЕ558 5555 10.8.1.2 目录 承载 者 
85: 542885ша ЕРЕ ЕУ 
TERETEREEVETEIERE 如 上 文 所 述 ， 对 于 VFS 的 某 个 目录 ， 
Ф g zu ЕЕ Б 、 
5585%22225255558% 其 背后 各 自 都 会 有 对 应 的 模块 来 承接 对 该 


目录 的 各 种 访问 。 主 要 有 6 大 类 承接 者 ， 分 
别 如 下 。 


š (1) 本 地 文件 系统 。 各 类 本 地 文件 系 
5 统 将 自己 实现 的 回调 函数 注册 到 VFS 提 供 的 
接口 上 ， 将 某 个 硬盘 上 的 文件 系统 Mount 到 
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truct inode operations { 
struct dentry = (*lookup) (struct inode *,struct dentry >, 
struct nameidata *); 
void * (*follow link) (struct dentry *, struct nameidata *); 
int (*permission) (struct inode *, int, unsigned int); 
int (*check acl)(struct inode *, int, unsigned int); 
int (*readlink) (struct dentry *, char user *,int); 
void (*put link) (struct dentry *, struct nameidata *, void *); 
int (*create) (struct inode *,struct dentry *,int, struct nameidata *); 
int (*link) (struct dentry *,struct inode *,struct dentry *); 
int (*unlink) (struct inode *,struct dentry *); 
int (*symlink) (struct inode *,struct dentry *,const char *); 
int (*mkdir) (struct inode *,struct dentry *,int); 
int (*rmdir) (struct inode *,struct dentry *); 
int (*mknod) (struct inode *,struct dentry *,int,dev t); 
int (*rename) (struct inode *, struct dentry *, 
struct inode *, struct dentry *); 
void (*truncate) (struct inode *); 
int (*setattr) (struct dentry *, struct iattr *); 
int (*getattr) (struct vfsmount *mnt, struct dentry *, struct kstat *); 
int (*setxattr) (struct dentry *, const char *,const void *,size t,int); 
ssize t (*getxattr) (struct dentry *, const char *, void *, size t); 
ssize t (*listxattr) (struct dentry *, char *, size t); 
int (*removexattr) (struct dentry *, const char *); 
void (*truncate range)(struct inode *, loff t, loff t); 
int (*fiemap)(struct inode *, struct fiemap extent info *, u64 start, 
u64 Len); 
« end inode operations » 


struct inode *(*alloc inode)(struct super block *sb); 

void (*destroy inode)(struct inode *); 

void (*dirty inode) (struct inode *); 

int (*write inode) (struct inode *, struct writeback control *wbc); 

int (*drop inode) (struct inode *); 

void (*evict inode) (struct inode *); 

void (*put super) (struct super block *); 

void (*write super) (struct super block *); 

int (*sync fs)(struct super block *sb, int wait); 

int (*freeze fs) (struct super block *); 

int (*unfreeze fs) (struct super block *); 

int (*statfs) (struct dentry *, struct kstatfs *); 

int (*remount fs) (struct super block *, int *, char *); 

void (*umount begin) (struct super block *); 

int (*show options)(struct seg file *, struct vfsmount *); 

int (*show devname)(struct seq file *, struct vfsmount *); 

int (*show path)(struct seq file *, struct vfsmount *); 

int (*show stats)(struct seq file *, struct vfsmount *); 
ifdef CONFIG QUOTA 

ssize t (*quota read)(struct super block *, int, char *, size t, loff t); 

ssize t (*quota write)(struct super block *, int, const char *, size t, loff t); 
ndif 

int (*bdev try to free page)(struct super block*, struct page*, gfp t); 
« end super operations > j 


truct address space operations ( 
int (*writepage)(struct page *page, struct writeback control *wbc); 
int (*readpage)(struct file *, struct page *); 
int (*writepages)(struct address space *, struct writeback control *);| 
int (*set page dirty)(struct page *page); 
int (*readpages)(struct file *filp, struct address space *mapping, 
struct list head *pages, unsigned nr pages); 
int (*write begin)(struct file *, struct address space *mapping, 
loff t pos, unsigned Len, unsigned fLags, 
struct page **pagep, void **fsdata); 
int (*write end)(struct file *, struct address space *mapping, 
loff t pos, unsigned Len, unsigned copied, 
struct page *page, void *fsdata); 
sector t (*bmap)(struct address space *, sector t); 
void (*invalidatepage) (struct page *, unsigned long); 
int (*releasepage) (struct page *, gfp t); 
void (*freepage)(struct page *); 
ssize t (*direct IO)(int, struct kiocb *, const struct iovec *iov, 
loff t offset, unsigned long nr segs); 
int (*get xip mem)(struct address space *, pgoff t, int, 
void **, unsigned long *); 
int (*migratepage) (struct address space *, 
struct page *, struct page *); 
int (*1launder page) (struct page *); 
int (*is partially uptodate) (struct page *, read descriptor t *, 
unsigned long); 
int (*error remove page)(struct address space *, struct page *); 
|+ < end address space operations > ; 


图 10-258 super operations/inode operations/address space орегайопѕ E 


VFS 目 录 之 后 ，VFS 会 记录 下 该 目录 的 访问 应 该 调用 哪 
个 file_operations 以 及 super_operations 等 结构 体 中 的 回调 
函数 ， 从 而 将 VO 请 求 转发 给 这 些 函 数 去 执行 。 这 些 函 
数 通过 读 取 硬 盘 上 文件 系统 元 数据 信息 来 对 文件 做 
创建 、 查 找 、 删 除 、 修 改 等 动作 。 我 们 将 实际 管理 
文件 的 文件 系统 比如 EXT2/3/4、NTFS 等 ， 称 为 本 地 
文件 系统 ， 区 别 于 VFS 这 个 通过 转手 调用 回调 函数 从 
而 让 所 有 本 地 文件 系统 的 访问 接口 都 变 得 统一 的 虚 
拟 层 。 

(2) 网 络 文件 系统 。 同 理 ，NFS/CIFS 等 网 络 文 
件 系统 通过 回调 函数 接收 到 IO 请 求 之 后 ， 并 非 去 本 
地 硬盘 来 读 写 文件 ， 而 是 将 IO 请 求 描述 在 标准 格式 
的 数据 包 中 ， 去 网 络 对 端 某 IP 地 址 对 应 的 机 器 上 来 读 
写 文件 。 对 方 机 器 上 需要 安装 有 NFS/CIFS 的 接收 端 模 
块 ， 专 门 负责 接收 对 应 TCP 端 口号 的 数据 包 ， 并 解析 
其 中 IO 请 求 命令 ， 然 后 读 写 它 所 在 机 器 的 本 地 硬盘 
上 的 文件 。 

(3) 内 核 中 的 信息 展示 和 参数 控制 。VFS 下 有 
一 个 目录 比较 特殊 ， 那 就 是 /proc 目 录 ， 该 目录 下 的 
“文件 ”《〈 其 实说 符号 更 准确 ) 其 实 并 不 在 硬盘 上 
也 不 在 网 络 对 方 机 器 的 硬盘 上 ， 而 是 在 内 核 内 存 区 
的 各 种 数据 结构 中 。 比 如 图 10-173 下 方 的 介绍 ， 当 
用 户 访问 /proc 下 的 对 应 文件 时 ， 对 应 的 read/write 系 
统 调用 会 调用 到 某 个 对 应 的 处 理 函 数 ， 该 函数 负责 
将 用 户 指 定 的 参数 写 入 对 应 的 变量 中 ， 或 者 从 一 些 
数据 结构 变量 中 提取 信息 然后 给 用 户 态 程序 。 相 当 
于 用 户 态 可 以 通过 读 写 /proc 下 的 “文件 ”或 者 说 符 
号 ， 来 查看 内 核 运行 的 一 些 参 数 ， 以 及 控制 内 核 的 
一 些 行为 动作 。 内 核 初始 化 时 会 使 用 proc_resgister() 
来 注册 专门 针对 /proc 目 录 的 file_operations 和 inode_ 
operations 回 调 函数 。 

(4) 设备 驱动 程序 。 对 于 比如 /dev/tty 这 样 的 设 
备 ， 其 底层 对 应 着 COM 串 口 或 者 虚拟 终端 〈 也 就 是 显 
示 器 窗口 ) ， 向 该 路 径 写 入 字符 串 ， 底 层 就 会 把 字符 
串 发 送 到 COM 对 端 或 者 输出 到 显示 器 上 。 终 端 设备 的 
驱动 程序 会 负责 将 fle_operations 等 回调 函数 注册 到 系 
统 中 。 


(5) 块 10 层 。 对 于 /dev/sda 等 块 设备 ， 则 由 块 
I/O 层 模块 来 负责 注册 file_operations 回 调 函 数 。 访 问 / 
dev/sda， 也 就 调用 了 对 应 的 回调 函数 ， 这 些 函数 再 调 
用 下 层 的 SCSI 协 议 栈 代码 ， 最 终 调用 到 通道 控制 器 驱 
动 程序 代码 ， 将 LO 下 发 到 硬盘 上 去 执行 。 

(6) 一 块 内 存 。 可 以 采用 一 块 内 存 空间 来 当 作 
某 个 目录 的 承载 者 ， 比 如 将 这 块 内 存 挂 接 到 /ramfs 或 
者 /tmpfs 下 ， 访 问 该 目录 ， 会 被 ramfs 或 者 mp 人 对 应 的 
回调 函数 承载 后 续 的 访问 ， 这 些 回调 函数 直接 从 内 存 
中 读 写 数据 。ramfs 或 者 tmpfs 常 用 于 一 些 掉 电 后 不 需 
要 保存 的 、 临 时 性 的 数据 存 取 。 


第 10 章 ЕЛЕ — БАО Ра ЕЕ 


Linux 下 的 根 目录 “/” 的 承载 者 是 谁 ? 在 安装 
Linux 的 时 候 会 提示 选择 安装 到 哪个 硬盘 /分 区 ， 并 
提示 选择 需要 将 该 硬盘 /分 区 格式 化 为 何 种 本 地 文件 
系统 。 这 个 硬盘 /分 区 就 是 根 目 录 的 承载 者 。 系 统 启 
动 之 后 ， 根 目录 下 的 子 目 录 可 以 用 来 挂 载 其 他 承载 
者 ， 但 是 无 法 将 承载 者 挂 载 到 根 目录 喧 宾 夺 主 ， 因 
为 系统 的 运行 需要 访问 根 目录 下 原生 的 一 些 文件 ， 
如 果 根 目录 可 以 被 整体 替换 ， 那 么 会 影响 系统 的 


运行 。 


可 以 将 VFS 层 理解 成 一 个 路 由 模块 ， 它 只 管 根据 
IO 目标 路 径 ， 调 用 对 应 的 回调 函数 。 所 以 ， 又 有 人 
将 VFS 称 为 Virtual Filesystem Switch。 所 谓 “Linux 下 
一 切 皆 文件 ”的 说 法 ， 指 的 就 是 对 所 有 系统 资源 的 
访问 都 通过 这 种 目录 的 方式 ， 这 里 的 “文件 ”已 经 
不 仅 指 硬盘 上 存储 的 数据 了 ， 而 指 的 是 VFS 下 的 “ 文 
件 ”， 其 实 称 之 为 “路 径 ” 或 者 “符号 ”更 为 合适 。 


10.8.2 ”本 地 FS 相关 数据 结构 


本 节 以 EXT2 文 件 系 统 为 例 介 绍 其 硬盘 上 的 数据 
结构 组 织 。 在 第 5 章 中 已 经 介绍 了 文件 系统 如 何 管理 
硬盘 上 的 文件 ， 其 中 提 到 过 ， 需 要 记录 文件 的 ; 尺 
寸 、 修 改 时 间 、 访 问 权限 、 占 用 了 哪些 硬盘 数据 块 等 
信息 。EXT2 文 件 系统 采用 inode (Index Node) 数据 
结构 来 记录 上 述 信息 ， 每 个 文件 对 应 了 一 个 inode， 
inode 本 身 也 要 保存 在 硬盘 上 ， 所 有 文件 的 inode 聚 集 
在 一 起 ， 形 成 一 个 inode Table。EXT2 会 针对 其 所 管理 
的 底层 存储 空间 创建 固定 数量 的 inode， 其 数量 = 存储 
空间 /8KB， 每 8KB 对 应 一 个 inode， 但 是 这 并 不 意味 着 
每 个 文件 只 能 占用 8KB， 其 仅 意 味 着 该 存储 空间 中 最 
多 只 能 存储 inode 总 数量 这 么 多 个 文件 。 

如 图 10-259 所 示 为 EXT2 文 件 系统 在 硬盘 上 的 元 
数据 组 织 。 内 核 可 以 将 硬盘 划分 成 若干 个 分 区 ， 每 个 
分 区 可 以 被 不 同 的 文件 系统 来 管理 。 假 设 分 区 1 采用 
EXT2 文 件 系统 管理 ，EXT2 对 其 所 管理 的 空间 首先 再 
次 划分 成 多 个 相同 大 小 的 Block Group， 然 后 在 每 个 块 
组 上 创建 一 套 元 数据 ， 包 括 : inode Table、 用 于 标记 
inode 是 否 被 分 配给 了 某 个 文件 的 inode 位 map、 用 于 
记录 数据 块 是 否 已 被 某 个 文件 占用 的 Block 位 map、 
用 于 记录 本 分 区 内 所 有 块 组 信息 的 Group Descriptors 
Table (GDT) 、 用 于 记录 本 分 区 文件 系统 的 全 局 信 
息 的 Super Block。 其 中 ，GDT 和 Super Block 在 每 个 
Block Group 的 开头 都 会 记录 一 份 相同 的 副本 ， 这 样 有 
利于 容错 。 

在 上 述 元 数据 中 ， 好 像 并 没有 看 到 针对 目录 的 
描述 。 其 实 ， 目 录 本 身 也 是 一 个 文件 ， 只 不 过 这 个 


本 加 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


文件 中 记录 了 “本 目录 下 的 所 有 子 目 录 和 
文件 对 应 的 名 称 和 inode 号 ”， 也 就 是 目录 
这 个 特殊 文件 的 数据 块 中 记录 了 一 张 文 件 
名 一 inode 号 的 列表 (inode 号 就 是 inode 结 
构 在 inode Table 中 的 序号 ) ， 表 中 每 条 记 
录 被 称 为 一 个 Directory Entry (dentry) o 
并 且 ，inode 中 也 并 没有 保存 其 对 应 文件 
的 文件 名 ,文件 的 文件 名 其 实 是 被 存储 在 
了 其 所 在 的 目录 对 应 的 特殊 文件 中 的 文件 
名 一 inode 号 表 中 了 。 每 个 目录 下 其 实 包 
含 两 个 特殊 文件 ， 分 别 被 命名 为 “.” 和 
“..”， 点 就 是 当前 目录 对 应 的 特殊 文件 ， 
点 文件 内 部 保存 的 就 是 当前 目录 的 所 有 文 
件 和 子 目 录 列表 ， 如 果 想 要 查看 当前 目录 
中 的 所 有 文件 和 子 目录 名 称 等 信息 ， 就 从 
inode Table 中 根据 点 这 个 文件 对 应 的 inode 
号 读 出 对 应 的 inode， 再 找到 点 文件 在 硬盘 
上 对 应 的 数据 块 ， 读 出 ， 解 析 ， 就 可 以 得 
到 点 《也 就 是 当前 目录 ) 的 文件 名 列表 和 
信息 了 。 而 点 点 文件 中 记录 的 则 是 当前 目 
录 的 父 目 录 (上 一 级 目录 ) 中 对 应 的 文件 
列表 。 

如 图 10-260 所 示 为 EXT2 文 件 系统 的 
inode 结 构 。 其 中 除了 记录 一 些 基本 信息 
之 外 ， 我 们 主要 关注 它 的 指针 区 是 如 何 组 
织 的 。 它 使 用 了 15 个 指针 来 记录 该 文件 在 
硬盘 上 所 占用 的 块 ， 这 并 不 意味 着 该 文件 
只 能 占用 15 个 块 。 前 12 个 指针 直接 指向 
该 文件 的 前 12 个 数据 块 ， 而 第 13 个 指针 
(Single Indirect) 指向 的 块 中 存储 的 是 
512 个 (具体 数量 取决 于 块 大 小 ) 二 级 指 
针 ， 可 以 指向 512 个 数据 块 。 如 果 文件 尺 
寸 更 大 ， 或 者 文件 尺寸 被 动态 扩充 了 ， 那 
么 需要 启用 Double Indirect 指 针 ， 其 指向 
的 块 中 的 512 个 指针 各 自 再 指向 一 个 包含 
256 个 三 级 指针 的 块 ， 这 样 就 可 以 指向 更 
多 的 数据 块 。 同 理 ， 还 有 Triple Indirect 
指针 。 

对 于 UNIX/Linux 类 操作 系统 下 的 文 
件 系统 ， 上 述 这 套 元 数据 概念 基本 都 适 
用 。 不 同文 件 系统 之 间 的 差别 在 于 对 这 些 
元 数据 的 具体 组 织 形式 以 及 文件 管理 方式 
和 执行 效率 以 及 面向 的 场景 等 。 


Data Blocks 


inode Б 


inode Table 


inode inode 


图 10-259 EXT2 文 件 系统 元 数据 示意 图 


10.8.3 VFS 相 关 数 据 结构 及 初 
始 化 


VEFS 作 为 一 层 统一 的 外 壳 ， 自 然 也 需 
要 相应 的 数据 结构 来 记录 各 种 管理 信息 ， 
比如 ， 不 同 挂 载 点 对 应 的 各 种 operrations 


分 区 文件 系统 
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回调 函数 表 等 。 为 了 与 本 地 FS 的 做 法 保持 统一 ， 
VFS 也 采用 inode、Superblock、dentry 等 数据 结构 
来 存放 各 种 信息 ， 但 是 其 内 部 组 织 与 本 地 FS 对 应 
的 同名 的 数据 结构 大 相 径 庭 。 可 以 想象 ，VFS 只 
是 一 副 空 这 ， 它 所 维护 的 inode 等 结构 中 的 信息 ， 
都 需要 从 目录 承载 者 本 地 的 元 数据 中 提取 出 来 


File data block 


БЕ " 填充 。 

нәр s ШЕ х | 如 图 10-261 所 示 为 VFS 所 维护 的 数据 结构 
| 2 | 关系 一 览 。 在 每 个 任务 的 task_struct 结 构 体 中 ， 
сасе ЖТР 2 |]: 包含 一 个 struct files struet files 结 构 体 指针 ， 指 
MAHAL {ДН ЕГЕН 向 了 用 于 记录 该 任务 所 有 已 经 打开 的 文件 /目录 
P. а | ја» š 对 应 的 相关 信息 的 结构 体 。 该 结构 体内 部 又 包 
$ |< ~ 含 一 个 struct file fd array[ ] 数 组 ， 数 组 中 每 个 
РЕНЕ š E 元 素 都 是 一 个 struct file( } 结 构 体 ( 又 被 称 为 file 
PP HT: descriptor， 文 件 描述 符 ) ， 每 个 file 结 构 体 中 记 
ИЕШЕ ыыы 录 了 该 被 打开 的 文件 对 应 的 基本 信息 ， 比 如 ， 记 
із БР d - 录 该 文件 对 应 的 目录 项 dentry、 用 于 操作 该 文件 
Ё { 3 ЕЕЕ E Б 的 file_operations 回 调 函数 表 等 。 从 dentry 中 可 以 
Ë Е j š 找到 该 文件 对 应 的 inode 结 构 体 ， 从 而 得 到 该 文 

КҮГЕ | š š = 件 的 各 种 属性 信息 。 
DT "| à 可 以 看 到 ，VFS 维 护 的 dentry、inode 结 构 ， 
ELT $$ 与 本 地 FS 同名 结构 有 很 大 不 同 ，VFS 对 应 结构 体 
i o i1 中 包含 该 结构 体 的 操作 回调 函数 表 的 指针 ， 比 如 
өза 83 inode 中 含有 i_ops 字 段 指向 inode_operations 回 调 
ЖЕ is 表 ，dentry 中 则 包含 指向 dentry_operations 回 调 表 
5555: 的 d_ops 指 针 字段 。 很 显然 ， 这 些 回调 表 ， 都 是 该 


目录 的 承载 者 当时 注册 到 系统 中 的 ，VFS 只 是 在 
inode 等 这 些 元 数据 中 插入 了 指向 这 些 回 调 表 的 指 
针 。 假 如 任务 需要 读 写 某 个 文件 ， 那 么 VFS 从 这 
些 数 据 结构 中 就 能 寻 址 到 对 该 文件 读 写 所 需要 调 
用 的 回调 函数 了 。 你 不 禁 会 问 ，VFS 是 怎么 把 这 
些 指针 安放 好 的 ? 它们 到 底 是 怎么 被 初始 化 的 ? 
一 切 还 得 从 Mount 开 始 说 起 。 


图 10-260 EXT2 文 件 系 统 的 inode 结 构 


Directory inode (128B) 
Timestamps (X3) 


| File size | # blocks | 


Direct blocks (X12) 


{ Е 再 次 强调 ， 本 地 FS 在 硬盘 上 维护 的 inode/ 
т dentry/superblock 等 结构 ， 与 VFS 在 内 存 中 维护 的 
ЖЫ | ZED 同名 数据 结构 是 两 套 完全 不 同 的 东西 ， 虽 然 名 称 
相同 ， 但 是 绝对 不 要 混为一谈 ， 否 则 会 哈 入 认 知 
“HMONG 的 泥潭 。 

T TF TT i 10.8.3.1 Mount 流 程 
= 4- т 当 用 户 在 命令 行 输入 “mount /dev/sda /mnt/ 
38 t p diska” 的 时 候 ， 命 令 行 解释 器 会 感知 到 这 是 用 户 
1-1 ME 希望 将 /dev/sda 上 已 经 格式 化 好 的 文件 系统 的 根 
i E 目录 挂 接 到 /mnt/diska 目 录 下 ， 访 问 该 目录 就 相 
Т; 当 于 访问 /dev/sda 上 的 根 目 录 。VFS 使 用 了 struct 
е 4 | i vfsmount{ } 结 构 来 记录 系统 中 所 有 的 VFS 挂 载 点 
Е || š 目录 路 径 与 所 挂 载 的 文件 系统 根 目录 的 关系 ， 
Н 5 E $ vfsmount 中 的 struct dentry *mnt mountpoint 和 struct 


dentry *+mnt_root 分 别 记录 了 挂 载 点 、 所 挂 载 FS 
шь 的 根 目录 对 应 的 dentry， 挂 载 点 被 挂 载 了 某 个 承 
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载 者 之 后 ， 其 VFS dentry 中 的 d_flags 字 段 会 被 标记 为 
DCACHE MOUNTED， 表 示 该 目录 下 原 有 的 文件 会 
被 隐藏 ， 不 可 访问 。 

比如 在 根 目录 下 创建 了 /abc 目 录 ， 该 目录 作为 一 
个 特殊 文件 ，VFS 会 调用 根 目录 承载 者 对 应 的 回调 
函数 来 生成 该 inode， 并 写 入 根 目 录 承 载 者 (也 就 是 
Linux 的 安装 盘 ， 系 统 盘 ) 对 应 的 本 地 FS 对 应 的 元 数 
据 中 。 但 是 这 个 目录 可 以 成 为 一 个 挂 载 点 ， 挂 载 其 他 
本 地 FS， 挂 载 之 后 该 目录 原本 的 本 地 FS 的 dentry/inode 
等 结构 都 不 会 变化 ， 而 它 对 应 的 位 于 内 存 中 的 、 由 
VFS 维 护 的 dentry/inode 等 结构 则 会 变化 。 

VFS 为 每 个 挂 载 点 都 生成 一 份 vfsmount 结 构 ， 针 
对 某 个 目录 下 的 文件 访问 ，VFS 首 先 定位 到 其 原生 
dentry， 如 果 发 现 d_flags 字 段 为 DCACHE MOUNTED, 
则 证 明 其 被 挂 载 了 另 一 个 承载 者 ， 需 要 去 vfsmount 
中 寻找 目标 。 所 以 VFS 随 即 搜索 所 有 的 vfsmount 结 构 
来 找到 该 目录 对 应 的 mnt_root (为 了 加 速 这 个 查找 过 
程 ，VFS 将 所 有 vfsmount 结 构 组 织 在 一 个 hash 表 里 ， 
用 hash 加 速 搜索 ) ， 然 后 读 出 对 应 的 mnt_root 并 从 中 
找到 对 应 的 VFS inode 结 构 ， 并 从 VFS inode 结 构 中 读 
出 i_ops 并 调用 lookup() 回 调 函 数 来 查找 该 文件 是 否 存 
在 ， 如 果 存 在 则 读 出 该 文件 的 本 地 FS inode 并 将 部 分 
信息 填充 到 其 对 应 的 VFS inode 结 构 中 。 上 述 介绍 的 比 
较 粗略 ， 随 着 下 文 逐 步 铺 开 ， 其 中 细节 会 逐渐 显露 。 

Mount 流 程 从 用 户 输入 mount 命 令 开始 ， 命 令 解 
释 器 底层 会 产生 mount 系 统 调用 ， 并 进入 内 核 态 的 do_ 
mount() 函 数 执 行 。do_mount0 首 先 调用 kern_pathO > 
do path lookcupO 函 数 来 找到 用 户 给 出 的 路 径 对 应 的 
VFS dentry 结 构 ， 并 将 其 放置 到 struct path path 中 ， 并 
将 后 者 作为 参数 传递 给 do_new_mount(O。 


mount 系 统 调用 必须 给 出 fstype 参 数 ， 也 就 是 被 
mount 的 文件 系统 的 类 型 ( 比如 ext2、ext3 等 ) 18. 
是 mount 命 令 中 可 以 不 指定 fstype， 此 时 命令 解释 器 
会 先 尝试 从 被 mount 设 备 的 分 区 表 中 来 获取 该 分 区 
被 格式 化 成 了 哪个 fstype ( mkfs 格 式 化 时 会 将 fstype 
写 入 分 区 表 中 对 应 字段 ) ， 然 后 再 将 fstype 作 为 
mount 系 统 调用 的 参数 。 


如 图 10-262 所 示 为 mount 流 程 。do_new_mount() 
函数 主要 执行 两 个 大 步骤 : 建立 vfsmount 和 superblock 
结构 ， 并 从 待 mount 的 设备 上 获取 本 地 文件 系统 元 数 
据 并 将 必要 字段 填充 到 建 好 的 结构 中 ， 将 vfsmount 结 
构 加 入 到 vfsmount hash 表 中 ， 并 将 挂 载 点 目录 原生 的 
dentry 做 无 效 处 理 (DCACHE MOUNTED) 。 

do_new_mount() 第 一 步调 用 do_kern_mount()， 
其 中 有 一 名 struct file system type *type = get fs_ 
type(fstype)， 该 名 作用 是 根据 用 户 传递 的 fstype 参 数 ， 
在 系统 全 局 变量 struct file system type file systems 
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组 成 的 链表 中 查找 该 fstype 对 应 的 file_systems 结 构 体 
(该 结构 体 是 各 个 文件 系统 初始 化 时 调用 register_ 

filesystem() 注 册 到 链表 中 的 ， 每 种 FS 对 应 一 个 file_ 
systems 结 构 体 ) ， 该 结构 体 中 会 包含 该 fstype 的 mount 
回调 函数 ， 也 就 是 说 ， 如 果 挂 载 的 是 该 fstype 的 文件 
系统 ， 就 要 调用 该 mount 回 调 函 数 来 完成 挂 载 。 再 说 
回来 ， 这 名 代码 执行 完 后 ，type 的 值 就 是 参数 fstype 对 
应 的 file_systems 结 构 体 了 ， 也 意味 着 ，type->mount 指 
向 的 就 是 最 终 的 用 于 挂 载 本 文件 系统 的 回调 函数 。 

do_kern_mount() 继 续 调用 vfs_kern_mount()， 后 
者 会 调用 alloc_vfsmnt() 在 内 存 中 分 配 一 个 vfsmount 
结构 体 mnt。 然 后 继续 调用 mount_fs()，mount_fs() 
函数 中 会 调用 type->mount() 回 调 函 数 ， 如 果 是 ext2 
文件 系统 ， 那 么 在 mount 对 应 的 就 是 ext2_mount()， 
后 者 继续 调用 mount_bdev()。mount_bdev() 函 数 主 
要 完成 superblock 结 构 的 初始 化 ， 并 且 将 其 加 入 到 
全 局 superblock 链 表 super_blocks 中 〈 该 链表 会 将 
系统 中 所 有 文件 系统 对 应 的 VFS Superblock 串 接 起 
来 ) ， 在 这 个 过 程 中 需要 读 出 对 应 硬盘 设备 的 ext2 
superblock， 并 顺 膝 摸 瓜 找 到 该 硬盘 文件 系统 的 根 目 
录 对 应 的 ext2 inode， 并 将 其 中 部 分 信息 填充 到 VFS 
inode 中 ， 然 后 将 VFS inode 在 填充 到 VFS superblock 
中 ， 如 图 10-263 所 示 。 

mount_bdev() 首 先 调用 sget() 试 图 分 配 一 个 空 的 
VFS superblock 结 构 ， 并 将 它 作为 参数 传递 给 fill_ 
super() 来 填充 。fill_super() 当 初 被 ext2_mount() 作 
为 一 个 参数 传递 给 mount_bdev()， 其 为 ext2_fill_ 
super()。 后 者 对 superblock 结 构 进 行 基础 填充 ， 比 
如 sb->s_op = &ext2 sops (填充 super_operations 回 
调 函数 表 ) 等 。 

ext2_fill_super() 随 后 调用 ext2_iget() 函 数 调用 
ext2_get_inode(0) 从 底层 硬盘 /分 区 中 读 出 根 目录 对 应 的 
ext2 inode 并 将 部 分 字段 填充 到 VFS inode 结 构 中 ， 然 
后 对 VFS inode 做 进一步 填充 〈 包 括 将 对 应 的 回调 函数 
表 注 册 到 inode 中 i_ op 和 i_fop 字 段 ) 并 将 其 返回 。 外 层 
函数 ext2_fill_ super0 拿 着 得 到 的 根 目录 VFS inode 让 d_ 
alloc_root0 函 数 分 配 一 个 VFS dentry 并 将 VFS inode 填 
充 进 去 。 这 样 ， 一 份 填充 好 的 根 目录 VFS dentry 就 生 
成 了 ， 然 后 将 其 注册 到 VFS superblock 的 s_root 字 段 中 
记录 。 

再 说 回 最 外 层 函 数 do_new_mount()。 最 终 ， 待 挂 
载 的 文件 系统 根 目录 对 应 的 dentry 结 构 会 被 注册 到 分 
配 好 的 vfsmount 结 构 体 mnt 中 。do_new_mount() 下 一 
步 是 调用 do_add_mount() 将 创建 的 vfsmount 结 构 mnt 
加 入 到 vfsmount hash 表 中 ， 并 且 将 挂 载 点 目录 的 原生 
dentry 目 录 项 无 效 掉 。do_add_mount0 具 体 实现 就 不 多 
介绍 了 。 

mount 过 程 至 此 完成 。 用 户 程序 要 访问 该 挂 载 
目录 下 的 文件 时 ， 首 先 需 要 Open 它 ， 下 面 就 来 看 看 
Open 过 程 都 发 生 了 什么 事情 。 
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10.8.3.2 Open 流程 


有 个 疑惑 是 ， 在 上 述 mount 步 又 完成 之 后 ， 难 道 
任务 不 可 以 直接 发 起 read/write 来 读 写 文件 了 么 ? 为 
何 先 要 open 这 个 文件 ? 读 写 文件 的 前 提 是 该 文件 存 
在 ， 当 前 用 户 有 访问 权限 ， 而 且 其 对 应 的 VEFS file, 
VFS dentry、VFS inode 结 构 都 已 经 创建 并 填充 好 ， 而 
mount 过 程 中 只 为 文件 系统 根 目录 创建 了 VFS dentry/ 
inode 等 结构 ， 所 以 open 过 程 就 是 为 待 访问 的 具体 目标 
文件 创建 和 填充 上 述 结构 的 过 程 。 

如 图 10-261 所 示 ， 所 有 被 任务 打开 的 文件 的 VFS 
信息 都 需要 被 记录 到 task_struct -> files struct -> fd ` 
array[ ] -> file 中 ， 每 新 open 一 个 文件 ， 就 会 新 创建 一 
个 fd_array[n]， 然 后 填充 其 指向 的 file 以 及 下 游 结构 ， 
以 供 后 续 read/write 调 用 按 图 索 驶 。 

open 系 统 调用 的 路 径 是 sys_open() > do_sys_ 
open()， 该 函数 先 调 用 get_unused_fd_flags() 来 分 配 
一 个 没有 被 占用 的 fd_array[n]。 然 后 调用 do_filp_ 
open() 构 建 对 应 的 struct file{ }， 并 填充 相关 信息 。 
然后 调用 fd_install0) 将 构造 好 的 file 结 构 挂 接 到 files_ 
struct -> fd array[n]. 

这 个 步骤 中 最 复杂 的 一 步 就 是 do_filp_ open), ЈЕ 
负责 根据 用 户 给 出 的 文件 路 径 ， 找 到 对 应 目录 下 的 对 
应 文件 系统 的 本 地 inode， 获 取 对 应 信息 然后 填充 到 
VFS inode/dentry 中 ， 同 时 将 对 应 的 operations 回 调 函 
数 表 注 册 到 其 中 。 其 还 通过 path_openatO > link path - 
walk() > may_lookup() 来 做 初步 的 权限 检查 。link_ 
path_walk() 内 部 会 解析 所 给 出 的 文件 路 径 名 称 ， 比 如 
/A/B/c.txt， 代 码 会 一 层 层 地 按 图 索 骏 ， 先 从 根 目录 
对 应 的 元 数据 找到 A 的 元 数据 ， 然 后 再 从 A 的 元 数据 
中 找到 A 下 面 的 B 的 元 数据 ， 以 此 类 推 。 由 于 篇 幅 所 
限 ， 对 open 具 体 步 骤 有 兴趣 的 读者 可 自行 了 解 。 

Open 过 程 将 对 应 的 数据 结构 和 回调 函数 指针 都 已 
准备 好 ， 下 一 步 就 可 以 read/write 了 。Open 系 统 调 用 的 
返回 值 ， 是 对 应 文件 在 task_struct -> files struct -> fd_ 
апау[ ] 数 组 中 的 标号 〈 下 标 ) ， 这 个 标号 也 被 俗称 为 
file handle〈 句 柄 ) ， 其 数据 类 型 为 Iong， 也 就 是 长 整 
型 。 可 以 预见 的 是 ，read 系 统 调用 最 终 不 需要 再 给 出 
文件 名 作为 参数 ， 而 只 需要 将 这 个 句柄 作为 参数 即 
可 ，VFS 接 收 到 read 系 统 调用 之 后 ， 用 该 句柄 来 寻 址 
fd array[ ] 就 可 以 拿 到 对 应 的 struct file( ) 文件 描述 符 ， 
而 struct file{ } -> £ op 字段 保存 的 就 是 该 文件 对 应 的 
file_operations 回 调 函 数 表 。 


10.8.4 人 read 到 Page Cache 


用 户 程序 调用 open 获 取 了 目标 文件 句柄 之 后 ， 
就 可 以 发 起 read/write 等 其 他 针对 文件 操作 的 系统 调 
用 了 。 本 节 来 看 read 调 用 。 其 对 应 的 内 核 入 口 函数 为 
sys read(). 
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sys_read 系 统 调用 的 参数 为 : 句柄 (unsigned int 
fd) 、 读 出 的 数据 放 在 哪 (char _ user *buf) 、 读 
出 的 字 节 数 (size t count) 。 难 道 不 需要 指定 “从 
文件 的 哪里 开始 读 取 ”， 也 就 是 offset/position 参 数 
么 ? 原来 ， 在 file 结 构 体 中 有 一 个 f_pos 字 段 ， 其 中 
记录 了 “上 一 次 读 取 到 哪个 字 节 处 了 ”。 文 件 刚 被 
时 open 只 有 f_pos 为 0， 随 着 不 断 读 取 ，f_pos 逐 渐 前 
推 。 如 果 想 跳跃 式 读 取 文件 ， 需 要 先 执 行 lseek 系 统 
调用 ， 将 文件 对 应 的 f_pos 值 设 定 到 对 应 偏 移 量 处 ， 
然后 再 发 起 read/write 调 用 ， 自 然 就 会 从 该 位 置 开始 
读 写 。f_pos 相 当 于 一 个 基准 游标 ， 发 起 1/O 之 前 先 设 
定 相对 原点 ， 后 续 的 IO 如 果 是 连续 的 话 ， 就 不 需要 
再 设 定位 置 了 ， 如 果 是 随机 的 ， 则 每 次 都 要 设 定 新 
位 置 。 

sys_read() 首 先 调用 fget_light0 来 获取 给 定 句柄 对 
应 的 file 结 构 体 (文件 描述 符 ) ， 这 个 过 程 无 非 就 是 
从 task_struct 结 构 体 开始 顺藤摸瓜 ， 没 什么 复杂 的 地 
方 ， 其 返回 值 当然 就 是 对 应 的 file 结 构 体 指针 。 然 后 
将 其 作为 参数 调用 fle pos_read() 来 读 取 该 文件 当前 的 
f pos， 然 后 将 f_pos 作 为 参数 之 一 ， 连 通 其 他 参数 ， 
传递 给 vfs_read0。 

vfs_read() 函 数 最 终 调用 file->f_op.read(file, buf, 
count, pos) 指向 的 回调 函数 。 对 于 ext2 文 件 系统 ， 该 
回调 函数 为 do_sync read. ЗЕЕ, Linux (2.6.39.4 
版 ) 下 几乎 所 有 的 本 地 文件 系统 的 read 回 调 函数 都 是 
该 函数 ， 该 函数 其 实 可 以 看 作 是 内 核 为 文件 系统 实现 
的 一 个 共用 函数 。 


Sync 是 同步 的 意思 。 所 谓 同步 I/O 就 是 指 调用 
者 发 起 调用 之 后 ， 一 直到 数据 成 功 写 入 到 调用 者 
给 出 的 内 存 位 置 之 后 ， 调 用 才 返 回 ， 在 这 之 前 ， 
调用 者 处 于 阻塞 状态 (被 调用 的 函数 不 返回 ， 调 
用 者 无 法 继续 ) 。 相 比 之 下 ， 异 步 JO 则 是 调用 者 
调用 对 应 的 下 游 函 数 之 后 ， 下 游 做 一 些 必要 处 理 
( 比如 将 IO 请 求 提交 到 某 个 队列 中 ) 之 后 就 返回 
了 ， 调 用 者 可 以 继续 执行 ， 读 出 的 数据 则 是 在 后 
台 异 步 被 写 入 指定 内 存 位 置 的 ， 并 通过 各 种 机 制 
(比如 信号 、 回 调 函 数 等 ) 来 处 理 完成 的 IO。 我 
们 下 文中 再 详细 介绍 。 


可 以 看 到 通过 read 系 统 调用 进入 内 核 之 后 ， 走 的 
都 是 do_sync read0， 也 就 是 同步 JO 调 用 过 程 。 但 是 
为 了 统一 和 简化 ，do_sync_read() 内 部 却 采 用 了 蜡 
步 IO 机制 来 模拟 同步 IJO。do_sync_read(O 调 用 f_op- 
>aio_read 回 调 函 数 (ext2 下 对 应 了 generic_ file aio | 
read()， 这 也 是 很 多 其 他 文件 系统 的 公用 的 aio_read 回 
调 函数 ) 发 起 一 次 异步 读 操作 。 这 里 的 疑惑 在 于 ， 
异步 IO 调用 可 能 会 在 数据 还 没 读 出 前 就 返回 了 ， 它 
怎么 会 被 模拟 成 同步 IO 的 行为 的 ? 很 简单 ， 只 要 调 
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用 异步 1O 函 数 的 调用 者 A 不 返回 即 可 ， 即 使 A 调用 的 
异步 VO 函数 B 返 回 了 ，A 也 可 以 原 地 等 待 一 直到 数据 
准备 好 或 者 干脆 休眠 然后 被 1/O 完 成 事件 来 唤醒 ， 这 
样 ， 调 用 A 的 人 就 会 被 一 直 阻 塞 住 ， 则 其 认为 A 就 是 
一 个 同步 WO 调用 。 

如 图 10-264 右 上 和 角 所 示 ， 在 do_sync_read0 内 部 ， 
首先 准备 好 一 份 kiocb (kernel IO controle block) , 
然后 对 其 填充 ，kiocb 是 内 核 异 步 IO 函数 所 使 用 的 
IO 描述 结构 体 。 然 后 将 其 作为 参数 之 一 ， 传 递 给 
并 调用 generic_file aio_read()， 后 者 可 以 返回 多 种 
不 同 状态 ， 除 了 常规 的 1/0 状 态 之 外 ， 还 可 以 返回 
EIOCBRETRY 和 EIOCBQUEUED。 如 果 返 回 值 是 前 
者 ， 则 表明 I/O 条 件 不 成 熟 ， 调 用 者 需要 重新 发 起 I/ 
О; 如 果 是 后 者 ， 则 表示 IO 请 求 已 经 成 功 被 提交 到 底 
层 队 列 中 ， 可 以 先 干 别 的 了 。 而 do_sync_read0) 的 选择 
则 是 根据 具体 条 件 重 新 发 起 IO 或 者 休眠 当前 任务 等 
待 IO 完 成 后 被 唤醒 ， 并 不 返回 ， 所 以 也 就 体现 出 了 
同步 JO 的 表象 。 

而 generic_file_aio_read() 内 部 主要 调用 了 do_ 
generic_file_read() 来 尝试 先 从 Page Cache 中 寻找 目标 
数据 是 否 已 经 在 Cache 中 。 


*рроз) 


struct iovec iov = ( .iov base = buf, .iov len = len ); 


struct kiocb kiocb; 
ssize t ret; 


user *buf, 


size t len, loff t 


(struct file *filp, char 


о sync rea 


if (ret |= -EIOCBRETRY) break; 


=> ret = filp-»f op-»aio read(&kiocb, &iov, 1, kiocb.ki pos); 
=p wait on retry, sync, kiocb(&kiocb); 


= ret = wait on sync, kiocb(&kiocb); 


*ppos = kiocb.ki pos; 


if (-EIOCBQUEUED == ret) 


} 


*pos) | [size t 
( 
} 


PE 


p-»aio read)) return -EINVAL;| 


10.8.5 从 Page Cache 到 通用 块 层 


Page Cache 并 不 是 物理 上 隔离 的 一 块 单独 内 核 内 
存 区 ， 它 是 见缝插针 分 散在 内 核 内 存 区 中 的 。 具 体 来 
说 ， 随 着 程序 对 一 个 文件 的 读 取 ， 文 件 以 Page 一般 
АКВ) 为 单位 被 从 硬盘 载 入 内 核 内 存 区 ， 然 后 再 被 
复制 到 用 户 空 间 内 存 区 。 后 续 再 次 发 起 读 取 的 时 候 ， 
会 先 查 找 待 访问 文件 区 域 对 应 的 Page 是 否 已 经 位 于 内 
存 ， 如 果 是 就 不 需要 读 硬 盘 了 ， 提 升 了 速度 。 那 么 ， 
给 定 某 文件 的 任意 区 域 ， 如 何 查找 该 区 域 是 否 命中 了 
某 个 / 些 Page 呢 ? 如 果 用 一 张 文 件 Page 一 内 存 Page 映 射 
排序 表 来 记录 的 话 ， 会 占用 大 量 空间 ， 就 算 该 文件 并 
没有 被 读 取 ， 也 需要 将 该 表 初 始 化 好 。 为 此 ， 人 们 使 
用 Radix 树 来 存放 映射 关系 ， 其 现 用 现 分 配 从 而 节省 
空间 ， 而 且 可 以 迅速 搜索 到 结果 ， 篇 幅 所 限 读者 可 自 
行 了 解 Radix 树 原理 。 每 个 文件 对 应 一 棵 Radix 树 ， 其 
根 节点 指针 被 保存 在 VFS 的 inode->i_ mapping-»page _ 
tree->rnode 中 ， 如 图 10-265 所 示 。 

而 do_generic_file_read() 的 主要 流程 是 在 Radix 树 
里 面 查 找 是 否 存在 对 应 的 page， 如 果 找 不 到 就 去 硬盘 
将 其 读 上 来 ， 然 后 调用 file_read_actor() 函 数 将 其 复制 
到 用 户 内 存 空间 指定 位 置 。do_generic file read(0) 的 逻 
辑 比较 复杂 ， 如 图 10-266 所 示 为 其 主 逻 辑 。 

其 首先 调用 find_get page() 来 查找 radix 树 ， 如 果 
找到 了 对 应 的 page， 证 明 该 文件 page 之 前 已 经 被 读 入 
了 内 存 ， 然 后 调用 PageUptodate0 检 查 其 是 否 up to date 
(有 可 能 同时 另 一 个 任务 正在 尝试 从 硬盘 上 读 入 内 容 
填 入 该 页 ， 此 时 就 不 up to date) ， 如 果 不 是 ， 则 跳 转 


(TASK, UNINTERRUPTIBLE); 


user “buf, size t count, 101 
if (liocb-»ki users) 


(ТА5К RUNNING); 


ync Kiocb(struct kiocb *iocb 


( while (iocb->ki users) ( 


break; 
=p io_schedule(); 


} 


set_current_state 


return iocb-»ki user data; 


set current state 
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=p loff t pos = file pos read(file); 


kiocbClearKicked(iocb); 
set current state 


if (!kiocbIsKicked(iocb)) 
> schedule(); 


ssize t ret = -EBADF; 
else 


int fput needed; 


=> file = fget light(fd, &fput needed); 


if (file) ( 


static void walt on retr" 
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图 10-266 do generic file read() 332 4t 


一 个 bio 结 构 〈 该 结构 是 最 终 传 递 给 通用 块 层 处 理 的 块 
LO 描述 结构 ) ， 再 调用 mpage_bio_submit0 将 其 提交 到 
块 层 去 。 

mpage bio submit() 设置 bio 的 结束 回调 bio->bi_ 
end_io 为 mpage_end io()， 然 后 调用 submit_bio() 提 
交 bio。submit_bio() 调 用 generic_make_request() 将 
bio 提 交 到 硬盘 通道 控制 器 维护 的 请 求 队列 中 之 后 就 
返回 了 。 然 后 外 层 函数 mpage_bio_submit() 也 return 
NULL 了 。 

当 IO 完 成 之 后 ，mpage_end_io0) 会 被 运行 ， 该 函 
数 会 SetPageUptodate0 设 置 对 应 标志 位 ， 然 后 unlock_ 
page() 解 锁 目 标 page， 然 后 调用 end_page_writeback() 
> wake_up_page() 函 数 将 之 前 因为 执行 了 lock_page_ 
killable0) 而 没 拿 到 锁 从 而 休眠 的 任务 唤醒 继续 执行 ， 
从 而 最 终 走 到 page_ok 处 。 


可 以 发 现 generic file_aio_read() 号 称 异 步 JO 
函数 ， 但 是 它 依然 被 阻塞 在 了 lock_page_killable(O) 
处 ， 一 直 等 待 JO 结 束 才 被 唤醒 。 这 何 谈 异 步 IO? 
是 的 ，Page Cache 机 制 会 导致 其 异步 JO 效 果 降 级 到 
与 同步 JO 相 同 。 但 是 generic_file_aio_read0 内 部 有 
另 一 条 分 支 ， 那 就 是 当 open 文 件 时 给 出 的 flags 中 含 
有 O_DIRECT 置 位 时 ， 其 表示 越过 Page Cache, й. 
接 读 写 硬盘 ， 也 就 是 Direct IJO。 此 时 该 函数 方 能 体 
现 出 异步 10 的 效果 ， 也 就 是 再 将 1/O 提 交 到 底层 队 
列 中 之 后 ,会 返回 EIOCBQUEUED。 调用 它 的 调用 
者 此 时 可 以 选择 再 次 发 起 一 笔 JO， 这 样 就 可 以 将 J/ 
充满 底层 队列 ， 提 升 系统 吞吐 量 。 然 而 ， 如 果 调 
用 它 的 是 如 上 文 所 述 的 do_sync read0， 那 么 其 为 了 
模拟 同步 /0 行为 ， 即 便 generic file aio read()iÉ EJ 
了 EIOCBQUEUED，do_sync_read() 也 会 调用 wait_ 
on_sync_kiocb() 来 强制 休眠 ， 从 而 阻塞 。 此 外 ,在 


Direct /O 模 式 下 ， 数 据 从 硬盘 读 出 后 会 被 直接 写 入 
用 户 内 存 空 间 指定 位 置 ， 不 需要 先 放 到 内 核 空间 再 
复制 到 用 户 空间 ， 所 以 很 多 对 性 能 有 要 求 的 应 用 都 
习惯 使 用 Direct IO+ 异 步 JO 模 式 ， 而 在 用 户 态 维护 
自己 的 缓存 。 但 是 read 系 统 调 用 目前 看 来 默认 使 用 
的 是 同步 IO 方式 ， 至 于 Linux 下 如 何 真正 地 利用 异 
步 JO 机 制 ， 下 文 介绍 。 走 Page Cache 渠 道 的 IO 被 俗 
称 为 BufferIO。 


函数 submit bio() 为 通用 块 层 的 总 入 口 。 我 们 在 
进入 通用 块 层 之 前 ， 先 总 结 一 下 至 此 的 系统 IO 路 
径 ， 如 图 10-267 所 示 。 用 户 态 程序 可 以 直接 发 起 系 
统 调用 ， 也 可 以 调用 各 种 C 库 比如 glibc 中 封装 之 后 
的 代码 向 内 核发 起 系统 调用 。 内 核 接收 到 那些 操作 
路 径 符 号 的 系统 调用 之 后 ， 便 进入 VFS 层 执行 ， 调 
用 对 应 的 VFS 层 函数 ， 比 如 vfs_read/vfs_write 等 。 后 
者 根据 flags 判 断 是 走 Page Cache 路 径 还 是 Direct I/O 
路 径 。 

同时 也 来 总 结 一 下 从 sys_read0 系 统 调用 一 路 走 到 
通用 块 层 入 口 的 函数 调用 过 程 ， 如 图 10-268 所 示 。 


10.8.6 ”Linux 下 的 异步 |/O 


异步 IO 可 以 提升 系统 的 吞吐 量 ， 同 时 可 以 让 程 
序 更 加 灵活 ， 不 至 于 为 了 等 待 IO 而 整体 被 阻塞 住 ， 
从 而 影响 用 户 体验 。 

异步 0 的 一 个 特点 就 是 把 LO 提交 之 后 ， 调 用 
者 就 可 以 返回 了 ， 至 于 IO 什么 时 候 完 成 ， 完 全 不 可 
控 ， 而 且 完成 后 会 使 用 信号 或 者 回调 函数 等 方式 来 通 
知 调用 者 处 理 或 者 直接 由 回调 函数 全 权 处 理 。 同 时 异 
步 1O 允 许 调用 者 不 用 等 待 上 一 笔 1/O 完 成 就 可 以 接连 
地 提交 多 笔 1O 请 求 ， 将 它们 队列 化 。 只 要 能 够 实现 
这 种 表象 ， 就 可 以 算是 异步 IO。 


幕后 的 工作 者 加 
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但 是 如 上 文 所 述 ，read 系 统 调用 最 终 执行 了 do_ 
sync_read0 这 个 同步 WO 函数 ， 而 其 底层 却 是 用 异步 1O 
函数 来 模拟 的 。 要 想 真 正 使 用 异步 /0 方式 ， 有 两 种 手 
段 ， 一 种 是 利用 glibc 提 供 的 用 户 态 库 通 过 传统 的 同步 
LO 也 就 是 read 系 统 调用 来 变相 地 实现 ， 另 一 种 方式 则 
是 采用 Linux 提 供 的 libaio 用 户 态 库 来 完全 利用 内 核 异 
步 IO 机 制 。 


10.8.6.1 基于 glibc 的 异步 /O 


glibc 实 现 的 异步 JO 可 以 说 是 一 个 变相 模拟 实现 
方式 。 它 在 用 户 态 维护 了 一 个 请 求 队列 ， 并 暴露 若 
干 函数 接口 供 调用 者 对 IO 进行 发 起 、 查 询 、 取 消 等 
操作 。 而 glibc 异 步 JO 库 代码 拿 到 这 些 IO 之 后 就 返回 
了 ， 调 用 者 可 以 继续 做 其 他 事情 。 而 之 后 ，glibc 异 步 
LO 库 在 后 台 创 建 并 启动 若干 线程 (用 户 线程 ) 来 处 
理 积压 在 队列 中 的 IO 请 求 ， 而 处 理 的 方式 依然 是 调 
用 read 系 统 调用 进行 同步 1/O 处 理 ， 相 当 于 利用 多 线 
程 、 每 个 线程 都 是 同步 /0O 来 后 台 处 理 /O， 从 而 模拟 
了 异步 /0 的 特点 。 上 述 这 些 步骤 对 应 用 来 说 都 是 透 
明 的 ， 应 用 程序 完全 感知 不 到 底层 的 行为 。 

这 种 模拟 的 异步 JO， 由 于 底层 仍然 采用 同步 IO 
方式 ， 所 以 底层 设备 队列 中 的 IO 积压 的 不 够 ， 就 容 
易 导致 O 路 径 上 的 吞吐 量 上 不 来 。 

glibc 异 步 JO 提 供 了 用 户 态 的 若干 API 函 数 ， 如 图 
10-269 所 示 为 部 分 接口 。 

用 户 程序 可 以 用 忙 等 的 方式 不 断 地 调用 aio_error0 
来 判断 IO 状态 。 也 可 以 采用 信号 机 制 ， 注 册 一 个 信号 
处 理 函数 来 在 IO 完成 时 第 一 时 间 运 行 处 理 完 成 的 IO， 
或 者 注册 一 个 回调 函数 ，LIO 完 成 后 底层 库 会 创建 一 个 
线程 来 运行 这 个 函数 ， 如 图 10-270 所 示 。 


10.8.6.2 ”基于 libaio 的 异步 |/O 


Linux 内 核 自 从 2.6 版 本 开始 就 已 经 加 入 了 异步 VO 机 
制 ， 使 得 异步 1O 在 内 核 内 部 就 可 以 实现 ， 而 无 须 在 
外 部 模拟 ， 这 样 内 核 就 可 以 同一 时 间 拿 到 多 笔 IO， 
吞吐 量 就 上 来 了 。 如 前 文 所 述 ，generic_file_aio_read 
0 已 经 实现 了 异步 WO 机 制 ， 但 是 它 被 封装 在 了 do_sync_ 
read0 〇 里面， 所 以 最 终 体现 为 同步 1O。 而 Linux 在 用 户 
态 提供 了 一 套 叫 作 libaio 的 库 ， 其 暴露 了 若干 接口 可 以 
让 用 户 程 序 直接 实现 异步 IJO。 这 些 接口 底层 对 应 了 
各 自 的 同名 系统 调用 。 

如 图 10-271 所 示 为 libaio 用 户 态 关键 数据 结构 。 由 
于 多 个 被 提交 的 异步 JO 可 以 在 任意 时 刻 乱 序 完成 ， 所 
以 用 户 程序 必须 能 够 区 分 哪个 IO 完成 了 哪个 尚未 完 
成 。kioctx (kernel IO Context) 结构 体 用 于 记录 IO 的 全 
局 信息 。 当 IO 完成 之 后 ， 内 核 会 将 MO 完成 的 结果 状 
态 值 包装 在 io_event 结 构 并 将 其 写 入 用 户 空间 的 一 个 ring 
buffer 中 ， 从 而 通知 用 户 程 序 。 在 io_setup0 系 统 调用 中 
内 核 会 将 内 核 内 存 区 一 块 内 存 空间 通过 mmap 映 射 到 用 
户 内 存 区 ，ring buffer 就 被 放 在 该 区 域 中 ， 用 户 程序 可 


以 直接 从 这 里 获取 io_event。 当 然 ， 用 户 程 序 也 可 以 
通过 调用 io_getevents0 系 统 调用 来 获取 io_event。 

调用 io_submit 后 ， 对 应 于 用 户 传递 的 每 一 个 iocb 
结构 ， 会 在 内 核 态 生 成 一 个 与 之 对 应 的 kiocb 结 构 ， 并 
且 在 对 应 kioctx 结 构 的 ring info 中 预 留 一 个 io_events 的 
空间 。 之 后 ， 请 求 的 处 理 结果 就 被 写 到 这 个 io_event 
中 ， 如 图 10-272 所 示 。 

用 户 程序 需要 首先 调用 io_setup(0) 通 知 内 核 创建 并 
填充 好 一 个 LO 上 下 文 结构 ， 该 结构 用 于 追踪 1/O 的 整 
体 流程 信息 。 然 后 调用 io_submit() 向 内 核 提交 一 个 I 
O，LO 被 描述 在 iocb 中 传递 给 内 核 。 

在 内 核 io_setup() 系 统 调用 中 ， 会 调用 ioctx_ 
alloc() 初 始 化 struct kioctx *ioctx， 其 内 部 还 会 调 
用 INIT_DELAYED WORK(&ctx-»wq, aio_kick_ 
handler)， 将 aio_kick_handler() 函 数 注册 到 ctx->wq 
这 个 work 结 构 中 。 如 果 忘 了 workqueue 机 制 可 以 回顾 
10.6.5.5 节 。ctx->wq 这 个 work 会 在 底层 IO 模块 返回 
EIOCBRETRY 之 后 被 加 入 到 aio_wq 这 个 workqueue 中 
延 后 处 理 ， 也 就 是 利用 ctx->wq 中 的 aio_kick_handler() 
函数 来 实现 重新 发 起 IJO。 ioctx_alloc() 还 会 调用 aio_ 
setup_ring() 来 创建 ring buffer. 

io_submit() 系 统 调用 在 内 核 的 入 口 是 do_io_ 
submit()， 其 调用 io_submit_one()。 后 者 调用 aio_ 
setup_iocb0 来 初始 化 用 于 描述 IO 的 iocb 结 构 ， 在 aio_ 
setup_iocb0 中 ， 会 根据 不 同 场景 将 kiocb->ki_retry 赋 值 
为 不 同 回调 函数 ， 比 如 对 于 普通 的 读 / 写 IO 请 求 ， 就 
会 被 设置 为 aio_rw_vect_retry0， 该 函数 也 是 最 终 执行 
该 WO 请 求 的 入 口 函 数 。 

然后 进入 io_submit_one() > aio_run_iocb()， 后 者 
会 执行 retry = iocb->ki_retry， 然 后 调用 retry0， 也 就 
调用 了 aio_rw_vect_retry()。aio_rw_vect_retry0 会 执行 
rw op = file->f_op->aio_read; ret = rw_op(….)， 可 以 
看 到 ， 其 最 终 还 是 执行 了 目标 文件 对 应 的 f_op->aio_ 
read/write 回 调 函 数 ， 从 而 与 从 read/wirte 系 统 调用 进 
入 的 函数 在 后 半 部 的 执行 路 径 没 有 区 别 。 这 也 就 意味 
着 ， 如 果 没 有 用 Direct LO 模式 ，libaio 渠 道 下 发 的 VO 
底层 依然 是 同步 1O 的 表象 。 而 相 比 之 下 glibc 实 现 的 
异步 0 由 于 是 纯粹 在 用 户 态 实现 ， 所 以 即便 是 采用 
T Buffer WO， 在 用 户 态 也 可 以 形成 LO 的 队列 化 ， 也 
可 以 适当 提升 吞吐 量 。 关 于 队列 与 吞吐 量 的 关系 可 以 
回顾 第 4 章 的 流水 线 相关 内 容 。 

如 果 aio_rw_vect_retry0 返 回 的 不 是 EIOCBRETRY 
或 者 EIOCBQUEUED， 那 么 证 明 1/O 已 经 正常 完成 ， 
而 不 是 在 后 台 等 待 完 成 ， 那 么 调用 aio_completion() 
完成 本 次 IO 。 而 如 果 返 回 的 是 EIOCBRETRY， 则 
aio run iocb() 会 继续 调用 aio_queue_work0 > queue | 
delayed work(aio ууд, &ctx->wq, timeout)， 将 携带 有 
aio kick handler0 的 work 延 后 执行 从 而 重新 发 起 IO 。 
aio kick handler0 会 调用 _aio run iocbs() > аю_пш_ 
iocb0 来 重 走 之 前 的 流程 。 
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在 aio_completion() 中 ， 会 将 LO 的 结果 写 入 到 io_ 
event 结 构 中 并 存 入 对 应 的 ring buffer， 同 时 还 负责 唤 
醒 由 于 等 待 该 O 而 睡眠 的 任务 。 


目前 ，Linux 下 的 AIO 实 现 仍 是 个 棘手 的 摊子 ， 
历史 上 曾经 有 多 个 组 织 、 个 人 接盘 但 最 后 似乎 都 没 
有 给 出 一 劳 永 选 的 良好 方案 。 


10.9 ОНУ 


10.9.1 ”从 通用 块 层 到 I/O 调 度 层 


再 回 到 VFS IO 路 径 上 来 。 块 层 的 submit 10078 
用 generic_make_request() 函 数 针对 链表 中 每 个 bio 都 
调用 ”generic_make_request() 来 处 理 。 后 者 调用 q = 
bdev_get_queue(bio->bi_bdev) 从 底层 块 设备 名 称 得 到 
其 对 应 的 请 求 队列 描述 结构 的 位 置 。 在 做 了 一 系列 
IO 合法 性 检查 之 后 ， 调 用 q->make_request fn(q, bio) 
将 该 bio 提 交 给 了 下 层 模 块 。make_request_fn 是 一 个 
回调 函数 ， 是 由 底层 块 设备 驱动 程序 当初 注册 到 q 里 
的 。 如 果 底 层 块 设备 驱动 想 直接 拿 到 这 笔 JO 请 求 ， 
那么 就 直接 注册 一 个 自己 所 实现 的 回调 函数 ， 而 如 果 
底层 块 设备 驱动 想 让 这 笔 JO 先 进入 由 内 核实 现 的 IO 
Scheduler 模 块 去 进行 一 轮 IO 重 排 、 合 并 的 优化 之 后 
再 交 给 自己 的 话 ， 那 么 还 是 乖乖 地 注册 内 核 原生 默认 
的 回调 函数 “make_ request). _ make request0 就 
ВАЖИО Scheduler 模 块 的 总 入 口 。 但 是 在 介绍 IO 调 
度 器 之 前 ， 我 们 在 块 层 多 滞留 一 会 儿 。 


对 于 SSD， 尤 其 是 NVMe 协 议 的 SSD， 由 于 其 
I/O 性 能 非常 强 ，I/O Scheduler 提 供 的 优化 对 它 而 
言 反而 是 帮 了 倒 忙 ， 所 以 NVMe 块 设备 驱动 会 直接 
将 自己 实现 的 函数 blk_mq_requeue_work(O 注 册 为 
4->шаКе request fn 的 回调 函数 。 当 然 ， 随 着 NVMe 
驱动 被 集成 到 了 内 核 ， 就 成 了 一 家 人 了 ， 也 就 无 所 
谓 “ 自 己 ” 了 ， 交 公 了 。 但 仍 有 一 些 使 用 私有 协议 
的 PCIE 接 口 SSD 设 备注 册 自 己 私 有 的 回调 函数 。 


10.911 块 设备 与 buffer page 


/dev/sda 也 是 一 个 “文件 ”， 可 以 被 程序 直接 读 
写 〈 直 接 读 写 硬盘 扇 区 ) ， 但 是 一 种 特殊 的 文件 。 
在 ext2 的 inode_operations->lookup 字 段 注册 了 ext2_ 
lookup0 回 调 函 数 ， 该 函数 会 在 link_path_walk0 被 调用 
用 来 查找 目标 文件 的 信息 。 该 函数 内 部 会 调用 ext2_ 
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iget0， 后 者 会 根据 文件 路 径 来 判断 应 该 注册 何 种 回调 
函数 表 到 文件 的 inode 的 i op 和 a_ops 字 段 ， 如 果 文 件 类 
型 并 非 普 通 文件 ， 那 么 会 调用 init special inode0 进 一 
步 注册 对 应 特殊 文件 的 i_ fop 字 段 。 这 些 特殊 的 文件 还 
包括 字符 设备 文件 (比如 /dev/tty) 、 用 于 进程 间 通信 
的 管道 文件 、 用 于 网 络 通信 的 socket 文 件 等 。/proc 也 是 
一 类 特殊 的 目录 文件 ， 但 是 对 它 的 注册 过 程 被 放 在 了 
proc_register() 函 数 中 单独 处 理 。 

从 图 10-273 中 可 以 看 到 ， 块 设备 对 应 的 read 回 调 
函数 与 普通 文件 是 一 样 的， 这 意味 着 它 最 终 会 走 到 
readpage 回 调 函数 执行 《如果 上 层 没 指定 使 用 Dcirect 
IO 模式 的 话 ) ， 从 这 里 开始 块 设备 对 应 的 函数 与 普 
通 文件 就 不 同 了 ， 块 设备 的 函数 比较 简单 ， 因 为 可 以 
直接 通过 给 出 的 位 置 得 到 对 应 的 扇 区 段 ， 而 普通 文件 
由 于 可 以 放置 在 任意 位 置 ， 所 以 需要 层 层 查找 元 数据 
才能 够 拿 到 给 定 的 文件 块 到 底 放 在 哪些 硬盘 扇 区 段 。 
除了 这 一 点 不 同 之 外 ， 其 他 步骤 基本 类 似 。 

如 图 10-274 所 示 ， 由 于 硬盘 块 大 小 可 能 与 文件 页 
大 小 不 同 ， 再 加 上 一 个 文件 中 的 数据 可 能 被 分 散在 底 
层 硬盘 的 任意 块 中 ， 就 需要 某 种 记录 结构 来 记录 一 
个 文件 页 中 所 包含 的 硬盘 块 的 位 置 。struct page 中 的 
private 字 段 指向 一 串 stmuct buffer head 链 表 ， 链 表 中 每 
个 串 接 的 buffer_head 中 会 有 指针 指向 对 应 的 硬盘 块 。 
每 个 硬盘 块 对 应 一 个 buffer， 用 一 个 buffer_head 结 构 来 
描述 。 一 个 Page (4KB) 中 可 能 包含 1 一 8 个 buffer， 因 
为 硬盘 块 最 小 尺寸 为 512B。 

那么 如 果 某 个 Page 的 4KB 最 终 是 连续 相 邻 地 分 布 
在 硬盘 上 的 ， 还 需要 用 buffer_head 来 记录 么 ? 这 里 
牵扯 到 一 个 历史 问题 。 对 于 普通 的 常规 文件 ， 如 果 
页 面 中 的 块 是 连续 的 ， 则 不 需要 记录 buffer_head; 
而 如 果 不 连 续 ， 则 需要 记录 。 对 于 块 设备 这 种 特殊 
的 文件 ， 当 直接 访问 它 时 (此 时 页 内 的 块 一 定 是 连 
续 的 ) ， 对 应 的 页 面 始终 都 需要 记录 buffer_head， 
这 看 似 没 什么 必要 ， 但 是 在 2.4 之 前 版 本 中 ， 块 设备 
的 缓存 与 常规 文件 的 缓存 是 分 开 的 ， 前 者 放 在 一 个 
专门 的 Buffer Cache 中 并 用 buffer head 来 管理 ， 后 者 
则 放置 在 Page Cache 中 ， 意 味 着 同一 个 块 可 能 同时 存 
在 于 Page Cache 和 Buffer Cache 中 。 而 到 了 2.6 版 本 及 
之 后 ， 两 者 合 二 为 一 ， 统 一 都 放置 到 Page Cache 中 ， 
但 是 依然 保留 了 buffer_ head。 所 以 ， 底 层 块 不 连续 
的 、 缓 存 了 常规 文件 数据 的 Page， 以 及 通过 直接 访 
问 块 设备 特殊 文件 而 缓存 的 Page 〈 即 便 内 部 的 块 是 
连续 的 ) ， 都 需要 记录 buffer_ head。 记 录 了 buffer | 
head 的 Page 被 称 为 Buffer Page。 如 果 对 单独 的 块 〈 如 
超级 块 ) 直接 进行 读 写 ， 对 应 的 Page Cache 中 的 页 也 
是 Buffer Page。 

Page 一 开始 和 buffer_head 是 没有 关系 的 ，do_ 
mapge_readpage() 函 数 通 过 get_block()( 对 应 于 ext2 
文件 系统 是 ext2_getblock() ) 函数 发 现 页 中 的 块 在 磁 
盘 上 不 连续 后 ， 就 需要 调用 create_ empty buffers) FR 
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() 来 执行 ， 后 者 根据 

buffer head 构造 bio， 设 置 bio 完 成 时 需 
| bh іо ѕупс(), 

0 将 bio 请 求 提交 给 


最 后 通过 submit_bio 


pge_readpage() 则 通过 


mpage_alloc() 申 请 一 个 具有 多 个 段 СЕ, 
含 多 个 io_vec) 的 bio 结 构 ， 然 后 调用 


|_page() 将 该 页 一 整 页 添加 到 bio 
中 ， 并 调用 mpage_bio_submit() 提 交 该 


bio 到 下 层 执行 。 


要 执行 回调 函数 end_bio bh io 6 
而 get_block() 如 果 发 现 目标 块 是 


提交 给 submit_bh 
连续 的 ，do_ma 


bio add 


TE. 


该 是 时 候 看 看 bio 了 。 


10.9.1.2 bio 


次 对 


信息 : 从 硬 


一 下 ， 
硬盘 的 读 写 至 少 要 包含 这 些 

{bv_page; 
bv len; bv offset } 用 来 描述 内 存 中 的 每 


。 想 


信息 


struct bio( } 结 构 体 用 来 描述 一 次 块 
部 


IO 请 求 的 全 
如 图 10-275 所 示 ， 对 于 一 笔 Block 1/ 


应 的 数据 结构 来 记录 存 有 待 写 入 数据 的 
内 存 区 域 描述 ， 或 者 数据 读 出 后 要 写 入 
的 内 存 区 域 描述 结构 。 我 们 就 从 这 个 记 
录 有 数据 位 于 内 存 位 置 的 结构 说 起 ， 该 
0 来 说 ， 其 要 读 写 的 数据 在 硬盘 上 必须 
是 连续 的 ， 而 且 长 度 必 须 是 硬盘 block 


的 整数 倍 。 但 是 这 些 数据 在 内 存 中 并 不 


一 定 连续 存放 ，struct bio vec 


盘 的 哪个 扇 区 开始 读 写 、 读 还 是 写 、 读 
写 的 总 长 度 是 多 少 字 节 。 同 时 ， 由 于 数 
据 可 能 分 散在 内 存 各 处 ， 所 以 还 需要 相 
结构 被 称 为 bio_vec (bio 向 量 ) 。 在 第 
7 章 中 曾经 介绍 过 SGL (Scatter Gather 
List) 这 个 结构 ， 其 思想 与 之 类 似 。 


WR 1590 enyd ПАУЗА ELT-01 A 


str; зәплзз)ә8ейреә. ләр 


Ч TIN peas уота чапзәл}| 


а 201 peas 


Hi 
/+ peau 1egnq siy} бшп $лэ5п ,/ f3uno»7q 1 5Tuole 
/x ЧУМ рәҙет20558 
ST Jajjnq spu} Зитадеш „/ ‘dew osse q, aoeds-ssaJppe 321438 
„ бшадеш зеудоџе цим рејеров5е ,/ 5sJajjnq 3osse"q peau 3sTT 352nJ3S 


*a3taM aprds етра) эразие = 
‘peas a»tTds әтт) этләиәЗ = 


этриәј 
Ta2or 3eduo2 

E аманој 913М02 зәр» 
«ТЗ2оТ porq = TPO ражротип“ 
ЕТТІ 


“тззоү ларута зе4шо> = 


*3uÁs4 лержта = 


aqTJnraoftds， 
peaJ әэт1тб<' 


‘dewu әтт+ зтлеџед = dewu’ 
“эзтам оте A9pXIQ = 93IJM оте" 
‘peau оте ət} 2rJ4eue3 = pea оте“ 
*ayt4M Sus ор = аутом“ 

"реза" »uÁs op = peau’ 

“easTT урота = КЕРЗІ 

'eso[2 лэржта = esee[ej' 

*uedo лерхта = uado* 


} = sdoy HTq зар 5иотлеједотатту 320435 3500 


4 7, O! риа q 20} pəA1ə8sə1 „/ fa3eATJd q, ртол 
/, чоцәјішо ОЛ „/ for pus q, 3 от pue ца 

f^epq а» ээтлар x»or[q 32143$ 

/, әбей au шцим езер ој Jalulod ,/ fe3ep q, jeu» 

7, би!ййеш jo ezis ,/ {271579 y 2715 

/x зедшпи :polq us ‚/ fuuxpo[q q 3 401285 

/, ol реддеш si uq siu әбеа aU} , / faSed"q, э8е4 321435 
7, па ѕ,әбеа jo 151) Jend , /говед styy q, peay 4844nq 32nJ3s 
/» (ahoqe 225) deuniq ayeys Jognq „/ {23е357а Зиот pau8rsun 


) peay 48344.ng 2143$] 
1 


f(our-r«-apour 

әрошт u 

9n830 N333)ysurad 
esTe 


“рг 5<-45 T«-apour “әрош “,u 


24! 1sdoJ^u2os7poqs = doy r«-epour 


“ОГ IFP APATA = от 32eJrp* 

“a3edaseaTaJ AepxIq = 

«за8едэзтам 2TJeus3 = зэ8едэзтам* 

“pua sa3TJM лархта = pue әдтим- 

“итЗәд әҙтім лержа = 

«э8едэзтам ләрута = as3eda3TJNM" 

“asedpeaJ лержта = 

|| = sdoe Та зәр 5иотјеједо э2е4$ sseuppe 32п43$ 35002 214235 


((әрош) 2055175) 4t esre 

‘sdof 033 fəpg = doy т‹-әрошт 
((әрош)04145175) эт este ( 

fnepJ = ләр т<-эроит 

1sdof^41q faps = dog т<-әроит 
} ((sPou)yasr s) ӛт este ( 

Флера = Aap r«-epour 

1sdof auo fapg = doy t«-opour 
) ((әрош)ин261 s) эт 


әЗедәѕеәтәл* 


urdaq эзтам* 


eSedpeeu* 


| 


fapou = apou r«-apout } 
ләры i ләр “apou у әрошп “apouf+ əpour зэгызз)әроцт Ter2eds 3TUT Pto 


文件 


第 10 章 计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 ГЕ ЕЕЕ 


struct page 


struct buffer head 
struct buffer head 


struct buffer head 


struct buffer head 


图 10-274 buffer head 示 意图 


一 个 数据 分 片 segment) 所 在 的 页 面 、 从 该 页 面 内 
部 的 第 几 个 block 开 始 、 长 度 为 多 少 。 每 个 segment 包 
含 一 个 或 者 多 个 block， 每 个 segment 位 于 某 个 Page 页 
面 内 部 。segment 是 指 某 个 bio_vec 所 指向 的 页 面 内 部 
的 、 待 读 出 或 者 写 入 的 数据 块 的 集合 ，segment 在 页 
内 的 起 始 block 和 跨越 block 的 总 数 完 全 取决 于 本 次 bio 
要 读 写 的 范围 。 一 个 bio_vec 只 能 描述 单个 Page 全 部 或 
者 内 部 部 分 的 块 ， 由 于 一 次 bio 的 数据 可 能 零散 分 布 在 
多 个 Page 中 ， 所 以 需要 多 个 bio_vec 结 构 体 组 成 数组 来 
描述 全 部 数据 的 位 置 ， 而 这 个 数组 的 指针 bi_io_vec， 
就 位 于 bio 结 构 中 。 同 时 ， 利 用 bio 中 的 bi_vcnt 字 段 来 
记录 本 次 bio 一 共 需 要 多 少 个 bio_vec。 

bio 中 的 bi_sector 记 录 了 本 次 IO 在 硬盘 /分 区 上 的 
起 始 扇 区 位 置 ， bi _bdev 则 记录 了 本 次 IO 是 针对 哪个 
块 设备 (指向 对 应 块 设备 的 描述 结构 体 ); bi_size 则 
表示 本 次 IO 的 读 写 数据 总 长 度 ，bi_sw 则 记录 本 次 IO 
是 读 还 是 写 。bi_idx 字 段 则 记录 了 当前 正在 填充 数据 
的 Page 对 应 的 bio_vec 所 在 的 数组 中 的 索引 位 置 〈 读 
时 ) ， 或 者 当前 正在 从 哪个 page〈 所 对 应 的 bio_vec) 
中 提取 数据 写 入 硬盘 〈 写 时 ) 。 

如 上 所 述 ， 如 果 Page 内 部 的 多 个 block 在 硬盘 上 
连续 分 布 《 如 图 10-275 中 黄色 的 Page) ， 则 其 不 需要 
记录 buffer_ head 结构 ;而 如 果 并 非 连续 分 布 ， 则 在 其 
private 字 段 中 需要 指向 一 串 buffer head 结构 体 ， 每 个 
buffer head 描述 一 个 block， 其 中 的 b_data 指 针 字 段 指 
向 了 对 应 的 硬盘 块 号 ，b_this_page 字 段 是 链表 钾 点 ， 
b_page 字 段 则 指向 了 本 block 所 在 的 Page， 链 表 中 的 所 
有 buffer_head 中 的 b_page 字 段 都 指向 同一 个 Page。 

这 就 是 bio， 一 个 描述 了 针对 硬盘 上 一 块 连续 区 域 
做 VO 的 全 部 信息 ， 其 “阵容 ”不 可 谓 不 强大 ， 原 本 很 
简单 的 一 笔 /O 操 作 竟 被 附加 上 如 此 腔 肿 的 管理 框架 。 
实际 上 ，Linux 内 核 中 很 多 模块 都 是 类 似 情况 ， 除 了 为 
了 更 加 灵活 之 外 ， 也 可 能 是 背负 了 较 多 的 历史 包 裕 。 

bio 中 的 bi_next 字 段 的 含义 接 下 来 介绍 ， 你 能 猜 
到 ， 这 是 指向 下 一 个 bio 的 指针 ， 嗯 ? 难道 多 个 bio 还 
会 形成 链表 ? 是 的 。 


10.9.2 从 I/O 调 度 层 到 块 设备 驱动 
通用 块 层 准备 好 bio 之 后 ， 最 终 调用 对 应 块 设备 


的 struct request queue q ->make_request_fn(q, bio) 
将 bio 传 递 给 下 层 。“ 下 层 ” 可 以 是 任何 处 理 bio 的 
模块 ， 处 理 模块 将 自己 的 承接 函数 注册 到 q-> make | 
request_fn 上 成 为 回调 函数 ， 即 可 接手 bio 了 。Linux 
内 核 为 应 用 程序 精心 准备 了 LO 调度 层 这 个 对 块 1O 优 
化 处 理 的 模块 ， 该 模块 提供 了 make_request() 这 个 
承接 函数 ， 所 以 ， 块 设备 驱动 如 果 想 利用 IO 调度 层 
的 优化 ， 那 就 注册 该 函数 ， 否 则 ， 可 以 自选 其 他 承 
接 函数 ， 自 己 实现 或 者 利用 内 核 中 其 他 己 有 的 合适 
的 函数 。 

如 其 名 称 一 样 ， make гедиез FK Zi [f] 2) 
能 ， 就 是 制作 一 个 request 结 构 体 ，request 中 可 能 包 
含 一 个 或 者 多 个 bio。 这 里 有 个 疑惑 ， 既 然 块 IO 的 所 
有 信息 都 已 经 在 bio 里 了 ， 为 何 还 要 将 bio 再 次 封装 到 
request 里 ? 


10.9.2.1 Request 与 Request Queue 


假设 通用 块 层 先后 两 次 提交 了 两 个 bio， 一 个 是 
读 取 硬 盘 的 0 一 8 扇 区 ， 第 二 个 bio 读 取 硬 盘 的 9 一 15 
扇 区 。 很 显然 ， 这 两 笔 bio 其 实 可 以 合并 (merge) 
在 一 起 ， 直 接 让 硬盘 读 出 从 0 一 15 扇 区 ， 这 样 更 加 高 
效 。 那 为 何不 在 通用 块 层 就 将 LO 请 求 进行 合并 ? 
为 有 时 候 上 层 程序 可 能 并 没有 注意 太 多 ， 没 有 做 这 
种 优化 ， 再 就 是 块 层 可 能 就 是 需要 将 这 两 笔 IO 分 开 
对 待 ， 比 如 可 能 完全 是 不 同 应 用 发 过 来 的 ， 就 算 合 
并 起 来 最 终 还 是 要 切 分 开 分 别传 递 给 不 同上 层 应 用 
程序 。 

而 WO 调度 层 (IO Scheduler) 则 承担 起 了 合并 IO 
的 大 任 。 在 _、make_requestO 下 游 ， 会 将 多 个 能 够 合 
并 的 bio 合 并 放置 在 同一 个 request 描 述 结构 中 ， 也 就 是 
说 ， 一 个 request 中 的 所 有 bio 联 合 描述 了 硬盘 上 的 一 片 
连续 的 block， 如 图 10-276 所 示 。 


计算 机 系统 底层 架构 原理 极限 剖析 


EEA 


小 光明 019 与 1S3nba1 “ananb lsanbal 947-01 BA 


enenb 3senbei pnas 

uj 1senbaj әуеш 
Uy 1sənbə; 

| uy br dod | 

| | 


EEE 


la peau әпәпЬ 


E ERIN HR AAAH 542014 


Lr | 


KER] 


xaq 


зәл оја pnns 


ТЕСЕ”! 


a6ed syy q 


39^ olq nns 


aed q 


peau заџла 


дал оја PNAS 


о! 12045 


peay Jaynq 


bio 中 的 bi_next 锦 点 将 一 个 request 中 的 所 有 bio 链 
接 起 来 ，request 中 的 bio 字 段 指 向 bio 链 首部 的 bio， 而 
request 中 的 bio_tail 字 段 则 指向 bio 链 尾部 的 那个 bio。 

另 一 个 疑问 是 ， 为 何不 直接 将 多 个 bio 合 并 成 
一 个 ， 比 如 将 第 二 个 bio 的 bio_vec 追 加 到 前 一 个 bio 
的 bio_vec 数 组 结尾 不 就 好 了 么 ? 为 了 对 通用 块 层 透 
明 。 既 然 通用 块 层 多 次 下 发 了 bio， 那 么 LO 调度 层 就 
必须 在 request 结 构 内 维持 原 有 的 bio 数 量 ， 否 则 就 无 
法 区 分 bio， 无 法 向 通用 块 层 交代 了 (当初 通用 块 层 
提交 了 多 笔 bio， 返 回 时 也 必须 返回 对 应 笔 数 ) 。 

对 于 那些 无 法 合并 到 现存 的 任何 一 个 request 中 的 
bio， 就 只 能 新 建 一 个 request 并 将 bio 加 入 其 中 。 多 个 
request 之 间 再 通过 锦 点 字段 queuelist 形 成 链表 ， 也 就 
是 request queue。 每 个 块 设备 〈 整 盘 或 者 单个 分 区 ) 
对 应 一 个 或 者 多 个 (block multi-queue， 为 应 对 多 核心 
并 发 场景 而 加 入 的 优化 设计 ) request queue。 

struct request queue( } 记 录 了 众多 其 他 控制 字 
段 ， 其 中 ，queue_head 字 段 为 request queue 的 链 头 ; 
request 名字 段 记 录 了 下 层 模块 〈 块 设备 驱动 程序 ) 
注册 上 来 的 承接 函数 指针 ， 如 果 将 request queue 的 指 
针 作 为 参数 之 一 来 调用 该 函数 ， 就 会 将 request queue 
中 的 request 按 照 顺序 挨个 儿 处 理 掉 。 所 以 request бад 
个 回调 函数 就 是 块 设备 驱动 层 的 入 口 函数 。 如 果 对 应 
块 设备 为 SCSI 设 备 ， 那 么 该 函数 会 被 设备 驱动 注册 为 
scsi request fn(). 

而 limits 字 段 指 向 了 一 个 struct queue limits( } 结 构 
体 ， 其 中 登记 了 对 应 的 底层 设备 的 各 种 门限 参数 ， 如 
图 10-277 所 示 。 其 中 ，max_hw_sectors 字 段 表示 底层 设 
备 最 大 可 以 接受 的 request 的 尺寸 (request 中 所 有 bio 描 
述 的 硬盘 扇 区 段 之 和 ) ; max_sectors 字 段 表 示 通 用 块 
层 所 给 出 的 request 最 大 尺寸 限制 ，max_sectors<max_ 
hw sectors; max segmentsfilmax segment size 字 段 分 别 
表示 request 对 应 的 数据 在 内 存 中 的 最 大 分 片 数量 
为 数据 可 能 遍布 内 存 各 处 ) 以 及 每 个 分 片 最 大 尺寸 。 
还 有 其 他 一 些 限 制 参数 就 不 一 一 列举 了 。 


struct queue limits { 
unsigned long bounce pfn; 
unsigned long seg boundary mask; 
unsigned int max hw sectors; 
unsigned int max sectors; 
unsigned int max segment size; 
unsigned int physical block size; 
unsigned int alignment offset; 
unsigned int io min; 
unsigned int io « 
unsigned int max discard sectors; 
unsigned int discard granularity; 
unsigned int discard alignment; 
unsigned short logical block size; 


unsigned short max segments; 

unsigned short max integrity segments; 
unsigned char misaligned; 

unsigned char discard misaligned; 
unsigned char cluster; 


unsigned char 
) « end queue limits » ; 


图 10-277 struct queue Іші ЊЕ 


discard zeroes data; 
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. make request0 函 数 每 制作 好 一 个 request， 就 将 
其 加 入 到 request queue 中 ， 并 在 适当 的 时 机 调用 下 层 提 
供 的 承接 函数 来 处 理 。 然 而 其 并 非 只 是 将 request 追 加 
到 request queue 末 尾 ， 而 是 要 按照 一 定 的 电梯 优化 算 
法 ， 将 新 生成 的 request 插 入 到 队列 中 合适 的 位 置 。 

机 械 硬盘 依靠 磁头 臂 摆 动 来 寻 道 ， 如 果 能 够 尽 
量 避 免 磁 头 来 回 摆动 ， 让 磁头 尽量 一 直 往 一 个 方向 摆 
动 ， 就 可 以 少 走 冤枉 路 ， 自 然 就 提升 了 性 能 。 但 是 上 
层 程序 可 根本 不 知道 底层 这 些 细节 ， 上 层 肆 意 地 用 任 
意 大 小 、 位 置 、 顺 序 的 bio 炮 弹 向 底层 狂 秦 滥 炸 。 所 
以 ，IO 调 度 层 的 另 一 个 任务 就 是 将 request queue 中 的 
request 合 理 地 重新 排序 ， 比 如 按照 request 中 对 应 的 硬 
盘 区 域 离 磁头 辟 的 距离 大 小 排序 ， 离 得 近 的 放 到 队列 
头 部 先 执行 ， 这 样 自然 就 可 以 提升 吞吐 量 。 

然而 ， 如 果 request queue 中 只 有 一 个 request， 那 
就 无 从 排序 优化 了 ， 只 有 让 queue 中 积累 一 定数 量 的 
request， 新 提交 的 bio 才 可 以 有 更 大 的 被 merge 到 已 排 
队 且 未 下 发 执行 的 request 中 的 概率 ， 同 时 在 request 之 
间 相 互 重 排序 的 余地 也 更 大 。Linux 内 核 采 用 了 plug 和 
unplug 机 制 来 积攒 request。 


10.9.2.2 вазал ва). 


把 水 池 漏水 孔 塞 住 ， 水 池 就 会 蕾 水 ; 拔 掉 塞 
子 ， 水 就 会 漏 下 去 。IO 调 度 层 对 bio 和 request 的 处 理 
BERK, wi EJL (plug， 和 暂停 向 底层 派发 
request) 在 request queue 中 积压 足够 多 的 request， 然 
后 进行 新 提交 bio 的 合并 以 及 对 request 重 排 ， 差 不 多 之 
后 《比如 超时 或 者 请 求 积压 数量 达到 一 定数 值 ) JK 
ЖАЛ, 〈unplug， 继 续 向 底层 派发 request) 让 优化 好 
的 request 提 交 到 下 层 处 理 。 盖 盖 儿 烂 的 时 间 越 长 ，bio 
被 合并 、request 被 重 排 的 反应 力度 就 越 彻底 ， 底 层 执 
行 效率 就 越 高 。 但 是 如 果 盖 盖 儿 时 间 过 长 ， 又 会 导致 
底层 设备 无 事 可 做 闲置 ， 反 而 影响 性 能 ， 所 以 盖 盖 儿 
和 开 盖 儿 的 时 机 一 定 要 把 握 好 ， 理 想 情况 是 在 底层 设 
备 完 成 上 一 次 开 盖 儿 遗留 的 最 后 一 个 IO 一 瞬间 开 盖 
儿 。 可 以 看 到 整个 IO 栈 其 实 形成 了 一 个 使 用 队列 进 
行 缓冲 的 多 级 流水 线 ， 让 流水 线 充 分 发 挥 效率 可 不 是 
个 简单 活 儿 ， 可 以 回顾 一 下 第 4 章 开头 的 部 分 。 


实际 上 ， 不 仅 bio 可 以 被 合并 到 某 个 request 中 ， 
多 个 request 之 间 也 有 可 能 相互 合并 。 只 要 烂 的 时 间 


够 长 ， 就 有 可 能 出 现 多 笔 读 写 硬盘 上 相 邻 区 域 的 
Tequest， 也 就 可 以 合并 它们 了 。 


再 比如 generic_file_aio_read0、libaio 中 的 do io - 
submitO 以 及 其 他 一 些 IO 函数 的 开始 和 结尾 ， 分 别 调 
ШТЫК start plug0 和 blk finish plug0 来 堵 盖 儿 和 掀 
盖 儿 。 堵 盖 儿 的 过 程 就 是 创建 一 个 blk_plug 结 构 体 并 
将 其 指针 登记 到 当前 任务 task_struct 的 plug 字 段 。blk_ 


plug 结 构 体 中 包含 链表 钾 点 ， 那 些 在 堵 
盖 儿 之 后 被 生成 的 request 先 不 放 入 request_ 
queue， 而 是 被 ”make request0 挨 个 儿 追 
加 到 该 链表 中 暂 存 ， 如 图 10-278 所 示 。 

而 在 blk_finish_plug0 函 数 中 ， 会 执 
行 掀 盖 儿 动 作 ， 其 会 调用 list_del_initO 
将 request 从 plug 链 表 中 摘出 ， 然 后 调用 
. elv_add_ requestO 将 request 按 照 对 应 
电梯 算法 重 排序 之 后 (有 多 种 不 同 的 
电梯 算法 ) 插入 到 request_queue 中 最 合 
适 的 位 置 。 只 要 plug 链 表 不 为 空 ， 就 循 
环 上 述 过 程 ， 将 plug 链 表 中 所 有 和 暂 存 的 
request 转移 到 request_queue 中 ， 转 移 的 
过 程 中 顺带 做 了 电梯 算法 重 排序 。 

然后 ， 调 用 queue_unplugged0 来 将 
request 派 发 给 下 层 模 块 。 该 函数 会 对 

“from_schedule ”这 个 参数 做 判断 ， 如 

果 参 数值 为 真 ， 则 调用 queue_delayed_ 
work(kblockd workqueue, &q->delay_ 
work, 0) 将 request_queue 结 构 体 中 登记 
的 delay_work 函 数 放置 到 名 为 kblockd_ 
workqueue 的 workqueue 中 延 后 执行 ， 
delay_work 函 数 将 负责 对 request 进 行 
派发 。 而 如 果 from_schedule 参 数 为 
假 ， 则 直接 调用 _blk_run_queue() > 
q->request_fn() 来 处 理 request，request_ 
fn 是 一 个 由 下 层 模 块 ( 块 设备 驱动 程 
序 ) 注册 的 承接 函数 ， 下 文 再 介绍 。 

参数 “from_schedule ”表示 本 次 
төріне dit ДЕЛЕ Ж ЈЕ fEschedule() Fi 
数 内 部 触发 的 。 实 际 上 ，schedule() 内 
部 会 调用 blk_schedule_flush_plug(struct 
task struct *tsk) > ЫК flush_plug_ 
list(plug, true) 来 将 待 休眠 任务 留 在 plug 
list 里 的 IO 派发 掉 ， 也 就 是 说 ， 任 务 休 
眠 之 前 必须 确保 其 发 出 的 VO 请 求 都 必 
须 被 掀 盖 儿 放 掉 ， 否 则 带 着 未 派发 的 
request 去 休眠 是 一 种 极 大 的 浪费 ， 因 为 
任务 休眠 期 间 完全 可 以 让 底层 设备 来 处 
理 /O， 为 何不 呢 ? 另 外 一 个 最 关键 的 原 
则 是 ， 如 果 任 务 因为 等 待 某 笔 JO 完 成 
而 休眠 ， 那 么 休眠 之 前 这 笔 JO 如 果 没 有 
被 派发 给 底层 ， 就 会 形成 死 锁 ， 从 而 导 
致 该 任务 再 也 无 法 醒 来 。 

总 结 一 下 ， 调 用 blk_start_plug0 之 
后 ， 就 可 以 批量 下 发 IO 请 求 ， 下 发 IO 
过 程 中 调用 的 _ make requestO 函 数 就 会 
有 更 高 的 概率 将 bio 进 行 合并 、 对 request 
进行 合并 和 重 排 。 然 后 blk_finish_ plug) 
下 游 会 将 这 批 请 求 按照 最 合适 的 顺序 从 
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10-278 ЫК start 


plug 链 表 转 移 到 request queue 中 并 派发 给 下 层 执行 。 
10.9.2.3 


现在 来 看 看 “make_requestO 内 部 是 如 何 处 理 bio 
和 request 的 ， 如 图 10-279 所 示 。 其 调用 attempt plug _ 
merge() 来 尝试 将 bio 与 plug 链 表 中 的 request 进 行 合 并 ， 
如 果 合 并 成 功 则 直接 返回 ， 不 成 功 的 话 ， 再 调用 elv_ 
merge() 尝 试 直接 将 该 bio 合 并 到 下 层 request queue ff] 
合适 的 request 中 。 如 果 plug 队 列 和 下 层 request queue 
中 都 找 不 到 合适 的 request， 那 就 只 好 调用 init_ request - 
from_bio() 为 这 个 不 合群 的 bio 单 独 生 成 一 个 新 的 
Tequest。 

如 果 当 前 正 处 于 blk_start_plug(0) 和 blk finish | 
plug() 之 间 的 话 ， 那 就 将 该 request 追 加 到 plug 队 列 然 
ЖЕН; 如 果 并 没有 启动 plug， 那 就 调用 add_acct_ 
request) > _ elv_add_request() 利 用 对 应 的 电梯 算法 将 
其 直接 插入 到 下 层 request queue 中 ， 然 后 调用 _ blk_ 
run queue() > q->request_fn() 将 request queue 中 所 有 
request 派 发 到 下 层 模块 处 理 。 

先 来 看 如 图 10-280 所 示 的 attempt_plug_merge() 
流程 。 其 首先 调用 elv_try_merge() 来 判断 该 bio 是 否 
可 以 被 加 入 到 plug 链 表 中 任何 一 个 request 中 ， 主 要 方 
法 是 依次 判断 plug 链 表 中 每 个 request 的 起 始 扇 区 地 址 
或 者 结束 扇 区 地 址 是 否 与 待 检测 的 bio 的 起 始 扇 区 地 
址 能 够 无 颖 衔接 ， 如 果 bio 的 结束 地 址 可 以 衔接 在 该 
request 的 起 始 扇 区 地 址 ， 就 返回 ELEVATOR_FRONT 
MERGE (合并 到 request 所 描述 的 扇 区 段 的 前 面 ， 前 
向 合并 ) ， 如 果 bio 的 起 始 扇 区 地 址 与 该 request 的 结 
束 扇 区 地 址 衔接 ， 那 么 就 返回 ELEVATOR_BACK_ 
MERGE (合并 到 扇 区 段 的 后 面 ， 后 向 合并 ) 。 如 果 
与 request 扇 区 段 的 头 部 和 尾部 都 无 法 衔接 ， 那 么 就 返 


. make_request 主 流程 


struct bio *bio) 
{ const bool sync = !!(bio-»bi rw & REQ SYNC); 

struct blk plug *plug; 
int el ret, rw flags, where - ELEVATOR INSERT SORT; 
struct request *req; 
blk queue bounce(q, &bio); 
if (bio-»bi rw & (REQ FLUSH | REQ FUA)) ( 

spin lock irq(q-»queue lock); 

where = ELEVATOR INSERT. FLUSH; 

goto |get rq;) 


static int . make ' request(struct request queue *q, get rq 


put cpu();) 
— plug = current-»plug; 
—P if (plug) ( 


| 一 if (attempt plug merge(current, а, bio)) goto |out; trace block plug(q); z 
spin_lock_irq(q->queue_lock); else if (Iplug- should sor) { $ 
el ret = elv merge(q, &req, bio); 4 一 struct reques: Е 
if (el ret == ELEVATOR BACK MERGE) { је = list PAT yr (plug- »list.prev); 

BUG ON(req-»cmd flags & REQ ON PLUG); ; АҒ( rq-»q !- q) plug-»should sort = 1; $ sg 
if (bio attempt back merge(q, req, bio)) ( req-»cmd flags |= REQ ON РЫ 2962; 
if (lattempt back merge(q, req) list add tail(&req- Squeuelist, &plug-»list); ү] ғ: 
elv merged request(q, req, el ret); drive stat acct(req, 1); о 5% 

goto |out unlock;) H э. a LO 20805: т % 

) else if (el ret =: = ELEVATOR FRONT. MERGE) { — add acct request(q, req, where); 一 lS 5 
BUG ON(req-»cmd flags & REQ ON PLUG); --> blk run queue(q); 6 $3 
if (bio attempt front merge(q, req, bio)) ( out unlock з ^ 

if (lattempt front merge(q, req)) ч-н 000): 542 
elv merged request(q, req, el ret); pe ч 57 
goto |ои4 ипіоск;) ` return 0; = 
} « end _ make request > 2 2 4 
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回 ELEVATOR_ NO MERGE. 

针对 上 述 的 三 个 返回 值 ， 在 attempt plug merge) 
分 别 对 应 着 调用 bio_attempt front шегое(). 19 ыо | 
attempt back merge()、 返 回 false 这 三 个 分 支 。 如 图 右 
下 角 所 示 为 bio_attempt back_merge0 人 代码， 可 以 看 到 
其 将 bio 颖 合 到 对 应 request 中 挂 接 的 bio 链 表 尾 部 。 对 
于 bio attempt front merge0， 则 是 缝合 到 头 部 。 

再 回 到 图 10-279 所 示 的 外 层 make _request() 函 
数 ， 如 果 attempt_plug_merge() 返 回 值 为 非 false， 证 
明成 功 地 执行 了 合并 ， 则 直接 goto out， 也 就 是 return 
0， 随 着 函数 一 层 层 return， 直 到 返回 到 generic_file_ 
aio read(0 之 后 ， 当 后 者 执行 blk_finish plug0 时 ， 会 将 
plug 链 表 中 所 有 request 加 入 到 下 层 request queue 中 并 派 
发 给 下 层 执行 ， 后 续 过 程 下 文 再 介绍 。 

而 如 果 attempt_plug_merge() 返 回 值 为 false， 证 明 
没 能 成 功 与 plug 中 的 request 合 并 。 但 是 bio 仍 可 能 与 已 
经 位 于 request queue 中 的 某 个 request 合 并 ， 于 是 调用 
elv_merge() 来 完成 这 个 动作 ， 如 图 10-281 所 示 。 其 首 
先 调用 blk_queue_nomerges() 来 判断 是 否 对 应 的 request 
queue 天 生 被 设置 为 不 允许 merge (通过 request_queue- 
>queue_flas 字 段 中 对 应 的 位 来 判断 ) ， 是 则 直接 返回 
ELEVATOR_NO_MERGE， 否 则 继续 判断 是 否 该 request 
queue 中 某 个 request 被 成 功 合并 入 了 某 个 bio〔 成 功 合并 
了 bio 的 request 会 被 记录 在 request_queue->last_merge 字 
段 中 ) ， 如 果 是 ， 则 考虑 到 上 一 次 成 功 合并 的 request 
在 后 续 一 段 时 间 内 可 能 会 有 更 高 概率 吸收 新 的 bio， 
遂 调 用 图 10-280 右 上 和 角 所 示 的 elv_try_merge0 函 数 尝试 
将 本 次 的 bio 继 续 与 该 request 合 并 ， 如 果 合 并 成 功 则 将 
last_merge 的 值 赋值 给 req 变 量 并 返回 ，req 变 量 会 被 呈 交 
ХУК шаке request0 来 处 理 。 

如 果 没 能 与 last_merge 对 应 的 request 合 并 ， 则 调 


о flags = bio data dir(bio); 
if (sync) 
rw. es Iz |- по зик; 
st wait(q, rw flags, bio); 
init. request : irre | bio(req, bio); === 
if (test bit(QUEUE FLAG SAME COMP, &q-»queue flags) || 
bio flagged(bio, BIO CPU AFFINE)) ( 
req-»cpu = i t estet Do 


if (list empty(&plug-»list)) 


truct request *rq, int where) 


quest (struct request queue *q, s| 


10-279 


_ make request0 内 部 主流 程 


IEE 到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


{ struct blk_plug *plug; 
struct request *rq; 
bool ret - false; 
plug - tsk-»plug; 
if (!plug) goto jout; 


int el ret; 
if (rq-»q !- q) continue; 
— el ret = elv try merge(rq, bio); 

if (el ret -- ELEVATOR BACK MERGE) ( 

—+ ret = bio attempt back merge(q, га, bio); 
if (ret) break; 

} else if (el ret == ELEVATOR FRONT MERGE) 4 

—» ret = bio attempt front merge(q, гд, bio); 
if (ret) break; 


} 
out: 
return ret; 
) « end attempt plug merge » 


static bool attempt plug merge(struct task struct "ЕЗК | int ӨТУ try mergetruct request ” ға, struct bio bio) 
struct request queue *q, struct bio *bio) | 


list for each entry reverse(rq, &plug-»list, queuelist) { 


K int ret = ELEVATOR NO MERGE; 
if (elv rq merge ok(. rq, bio)) ( 
— if (bk ra pos( rà) + ЫК rq sectors ға) == bio->bi_sector) 
ret = ELEVATOR BACK MERGE; 
— else if (blk rq pos( rq) - bio sectors(bio) = 
ret - ELEVATOR FRONT MERGE; 


= bio-»bi sector) 


+ 
return ret; 


ststic bool Dio attempt back merge struct request queue "q, 
struct request *req, struct bio *bio) 
4 const int ff = bio-»bi rw & REQ FAILFAST MASK; 
if Cra mergesble(rez)) f 
« dump rq flags(req, "Баск"); 
bore dm 
if (111 back merge fn(a, req, мю) return false; 
trace block bio backmerge(q, bio: 
if ((rea- мі; | flags 8 а МАЅК) != ff) 
(ға se! pied 4 жеге (req); 
ez = 


Леп += bio-»bi size; 

req-»ioprio = ioprio best(req-»ioprio, bio prio(bio)); 
drive stat acct(reg, 0); 

return true 


H 


图 10-280 attempt plug merge) Fit iE 


用 blk queue_noxmersges0 来 判断 是 否 该 request queue H 
允许 与 ljast_ merge 的 request 进 行 合并 ， 如 果 否 ， 则 继续 
尝试 更 深层 次 的 合并 ， 于 是 调用 elv_rqhash_find0 函 数 
完成 深层 次 合并 尝试 。 系 统 中 维护 了 一 个 request hash 
表 ， 将 队列 中 所 有 request 的 结束 扇 区 地 址 进行 hash 分 
类 成 多 个 区 间 ，elv_rqhash_find() 内 部 会 对 待 合 并 的 
bio 的 起 始 地 址 进行 hash 计 算 并 判断 其 落 入 了 哪个 区 
间 ， 然 后 遍历 该 区 间 内 所 有 request 进 行 精确 匹配 ， 从 
而 尝试 后 向 合并 。 如 果 成 功 找到 合适 的 request， 将 其 
指针 赋值 给 req 变 量 并 返回 ， 然 后 外 层 的 elv_merge 返 
回 ELEVATOR_BACK_MERGE。 如 果 没 能 找到 合适 的 
request， 则 elv_rqhash_find(0) 返 回 NULL， 则 继续 尝试 
寻找 适合 前 向 合并 的 request。 


int elv merge(struct request queue *q, 
struct request **req, struct bio *bio) 
{ struct elevator queue зе = 
struct request * rq; 
int ret; 
if (blk queue nomerges(q)) 
return ELEVATOR NO MERGE; 
if (q-»last merge) { 
ret - elv try merge(q-»last merge, bio); 
if (ret |= ELEVATOR NO MERGE) { 
*req = q-»last merge; 


q-»elevator; 


return ret; ) 


} 
if (blk queue noxmerges(q)) 
return ELEVATOR NO MERGE; 
. rq = elv rqhash find(q, bio-»bi sector); 
if ( rq 86 elv rq merge ok( га, bio)) ( 
*req = _ газ 
return ELEVATOR BACK MERGE; ) 
if (e-»ops-»elevator merge fn) 
return e-»ops-»elevator merge fn(q, req, bio); 
return ELEVATOR NO MERGE; 
у « end elv merge » 


图 10-281 elv тегее Eu 


尝试 找到 合适 前 向 合并 的 reqeust， 这 个 任务 会 交 
给 底层 电梯 算法 注册 的 elevator_merge_fn() 回 调 函 数 
来 进行 。 这 里 的 疑问 在 于 ， 前 向 合并 似乎 并 不 复杂 ， 
无 非 就 是 比 对 bio 结 束 地 址 与 request 起 始 地 址 ， 为 何 
不 能 与 后 向 合并 类 似 处 理 ? 原因 在 于 ， 前 向 合并 的 概 
率 比 较 低 ， 因 为 多 数 场景 下 ， 后 提交 的 bio 一 般 都 是 


读 写 上 一 次 bio 结 束 地 址 之 后 的 扇 区 ， 除 非 随机 度 非 
常 高 的 少数 场景 ， 否 则 很 少 会 反 过 头 来 读 写 之 前 bio 
结束 扇 区 地 址 之 前 的 扇 区 。 也 就 是 说 ， 程 序 对 数据 的 
操作 一 般 都 是 顺 着 来 的 ， 从 低 到 高 从 近 到 远 ， 走 回头 
路 的 概率 比较 低 。 于 是 系统 并 没有 再 为 每 个 request 的 
起 始 扇 区 地 址 做 同样 的 hash 表 。 而 是 将 这 个 任务 交 给 
了 电梯 算法 的 回调 函数 ， 某 种 电梯 算法 可 以 选择 性 地 
实现 前 向 合并 。 如 果 电 梯 算法 找到 了 合适 的 前 向 合并 
request， 则 返回 ELEVATOR_FRONT_MERGE， 和 否则 
返回 ELEVATOR_NO_MERGE。 

回 到 外 层 的 _make_request(0) 函 数 ， 其 接着 根据 
elv_merge 的 返回 值 elv_ret 来 走 不 同 分 支 。 如 果 elv_ 
merge() 找 到 了 合适 的 后 向 合并 reqeust， 则 调用 图 10- 
280 右 下 角 所 示 的 bio_attempt_back_merge() 来 后 向 缝合 
bio 到 对 应 的 request 中 ， 完 成 后 ， 再 调用 attempt_back_ 
merge() 尝 试 将 刚才 被 并 入 了 bio 的 这 个 request， 与 排 
在 该 request 后 面 的 request 尝 试 合并 ， 因 为 被 追加 了 一 
个 bio 之 后 ， 之 前 并 不 到 一 起 去 的 两 个 request 之 间 的 颖 
隙 就 很 有 可 能 被 这 个 bio 刚 好 填 满 。 如 果 很 不 幸 无 法 
合并 这 两 个 request， 则 调用 elv_merged_request0 函 数 
将 这 个 被 并 入 了 新 bio 的 request 重 新 计算 一 下 其 应 该 在 
request queue 中 的 最 新 位 置 和 状态 ， 该 函数 会 调用 底 
层 电 梯 算 法 对 应 的 elevator_merged_fn0 回 调 函 数 来 做 
这 件 事 。 

同 理 ， 如 果 elv_merge() 找 到 了 合适 的 前 向 合并 
reqeust， 则 调用 相应 的 前 向 合并 后 续 相关 函数 执行 ， 
并 返回 。 而 如 果 elv_merge() 返 回 的 是 ELEVATOR_ 
NO_MERGE， 则 走 到 get_rq 标 记 处 继续 执行 。 函 数 
init_request_from_bio() 会 新 生成 一 个 request 来 容纳 该 
不 合群 的 bio， 后 续 的 过 程 在 本 节 一 开始 就 介绍 了 ， 不 
BÜRO. 

经 过 上 述 步骤 分 析 ， 读 者 似乎 已 经 感觉 到 ， 电 梯 
算法 模块 提供 了 诸多 的 回调 函数 用 于 承接 上 层 下 发 的 
bio 和 request， 对 它们 进行 合并 、 加 入 并 排序 等 动作 。 


10-279 右 侧 所 示 的 _elv_add_ requestO 函 数 内 部 其 实 


也 调用 了 由 底层 电梯 算法 提供 的 elevator add тед #10) 
回调 函数 。 


10.9.2.4 ПО Scheduler 


Linux 2.6.39.4 内 核 提供 了 CFQ (Completely Fair 
Queue) 、Noop (No Operations) 和 Deadline 三 种 
IO 调度 算法 模块 (IO Scheduler，IO 调 度 器 ) , sk 
者 称 之 为 电梯 (Elevator) 算法 。 内 核 使 用 的 默认 算 
法 记录 在 内 核 引 导 参 数 elevator 中 ， 可 以 设置 为 上 述 
三 个 值 。 系 统管 理 员 也 可 以 在 运行 时 动态 改变 某 个 
块 设备 对 应 的 调度 算法 ， 具 体 可 以 通过 sysfs 接 口 ， 
将 配置 值 写 入 对 应 的 路 径 ， 比 如 /sys/block/sda/queue/ 
scheduler。 底 层 驱 动 程序 模块 也 可 以 实现 自 定义 的 IO 
调度 算法 。 

上 文中 一 直 假设 的 是 : 电梯 算法 将 新 生成 的 
request 直 接 插 入 到 块 设备 对 应 的 request queue 中 合适 
的 位 置 ， 从 而 让 request queue 中 的 request 的 排列 顺序 
在 任意 时 刻 都 是 按照 磁盘 磁头 移动 方向 优化 的 。 实 际 
上 ，IO 调 度 器 考虑 的 不 仅 是 磁头 位 置 和 移动 方向 ， 
还 会 考虑 读 / 写 IO 对 性 能 带 来 的 不 均衡 ， 以 及 不 同 线 
程 之 间 的 公平 性 等 因素 。 

比如 ， 对 于 读 请 求 而 言 ， 一 般 会 尽量 将 其 排 在 
写 请 求 前 面 优先 派发 ， 前 提 是 这 两 笔 1/O 操 作 的 是 不 
同 的 扇 区 段 ， 否 则 会 产生 RAW 相 关 性 而 不 能 乱 序 执 
行 。 读 优先 于 写 的 原因 是 由 于 应 用 程序 在 拿 不 到 数据 
之 前 有 很 高 的 概率 无 事 可 做 而 休眠 ， 只 有 在 拿 到 数据 
之 后 才 会 去 处 理 数据 ， 所 以 读 请 求 有 较 高 的 概率 是 同 
步 的 ， 而 写 请 求 则 有 较 高 概率 是 异步 的 ， 也 就 是 程序 
处 理 完 数据 之 后 将 其 保存 到 硬盘 ， 这 个 过 程 即便 是 延 
后 发 生 ， 多 数 时 候 也 不 会 影响 程序 的 性 能 和 人 逻辑 正确 
性 。 而 且 ， 程 序 一 般 是 先 读 出 数据 处 理 ， 然 后 再 写 入 
处 理 完 后 的 数据 ， 所 以 读 排 在 写 之 前 也 顺理成章 。 但 
是 又 不 能 总 是 让 读 优先 于 写 执行 ， 否 则 会 导致 写 请 求 
被 饿 死 〈 长 时 间 无 法 得 到 执行 而 导致 应 用 程序 端 VO 
超时 出 错 崩 演 ) ， 所 以 还 需要 一 些 额外 的 限制 参数 和 
对 应 的 策略 。 

所 以 ，I/O 调 度 器 一 般 会 维护 若干 个 内 部 私 用 
的 队列 或 者 红 黑 树 等 数据 结构 ， 先 将 上 层 下 发 的 
request 按照 本 调度 器 特有 的 算法 插入 到 私有 数据 结 
构 中 〈 这 个 过 程 就 是 图 10-279 右 侧 所 示 的 add_acct_ 
request() > _elv_add_requestO 调 用 路 径 ) ， 当 下 层 
模块 需要 处 理 request 时 ， 通 过 调用 IO 调度 器 注册 
的 回调 函数 elevator_dispatch_fn() 来 从 调度 器 的 私有 
队列 中 摘出 一 条 最 合适 执行 的 request 且 将 其 加 入 设 
备 的 request queue 中 ， 供 下 层 模块 处 理 。 也 就 是 说 ， 
request 从 IO 调度 器 队列 中 被 转移 到 设备 request queue 
的 过 程 ， 是 由 下 层 模块 主导 的 ， 但 是 有 个 例外 ， 
ЖЕ  elv add request > elv_drain_elevator() 中 会 将 
调度 器 私有 队列 中 全 部 request 移 动 到 下 层 的 request 


queue 中 。 
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比如 ，CFQ 调 度 器 会 维护 一 棵 红 黑 树 以 及 一 个 
FIFO 队 列 ，FIFO 队 列 中 的 request 按 照 生成 时 间 先 后 
次 序 排列 ， 红 黑 树 中 的 request 则 采用 扇 区 地 址 进行 排 
列 。 在 判断 下 次 派发 哪个 request 时 ， 会 综合 各 种 条 件 
和 策略 来 决策 。 由 于 篇 幅 所 限 ， 各 种 1/O 调 度 器 的 具 
体 设计 请 读者 自行 了 解 ， 这 里 只 介绍 一 个 框架 和 主干 
流程 。 

不 管 是 系统 自 带 的 还 是 自 定义 的 调度 算法 ， 它 
们 在 初始 化 时 都 需要 将 一 堆 数据 结构 和 回调 函数 表 
注册 到 系统 内 核 框架 中 。 具 体 是 在 初始 化 时 通过 调 
用 elv_register() 函 数 将 一 个 记录 有 调度 算法 全 局 信 
息 的 struct elevator_type{ } 结 构 体 注册 到 系统 全 局 链 
表 elv_list 中 。 在 elevator_type->ops 字 段 存 放 了 struct 
elevator_ops{ }， 这 就 是 该 电梯 调度 算法 的 回调 函数 
表 ， 如 图 10-282 所 示 。 

每 个 request queue 使 用 何 种 调度 器 ， 取 决 于 struct 
Tequest_queue 中 的 struct elevator queue elevator( } 结 
构 体 中 记录 的 信息 。 如 图 10-282 左 下 角 所 示 ， 其 中 
包含 elevator_ type 以 及 elevator_ops 两 个 关键 的 结构 
体 指针 ， 这 样 就 可 以 把 request_queue 作 为 参数 传递 
给 下 游 处 理 函数 ， 后 者 可 以 顺 蒋 摸 瓜 找到 elevator_ 
type 以 及 elevator_ops 并 找到 对 应 的 信息 和 回调 函数 
指针 。 

以 图 10-279 右 侧 的 void _ elv add request(struct 
request queue *q, struct request "га, int where) PA #2) 
例 ， 从 该 函数 的 参数 可 以 看 出 ， 其 将 rq 插入 到 q 中 ， 
where 则 用 于 通知 该 函数 采用 什么 样 的 具体 策略 来 插 
入 rq。 该 函数 内 部 会 根据 where 的 值 来 做 出 对 应 的 动 
作 ， 如 图 10-283 所 示 。 

其 中 ，elv_drain_elevator() 内 部 调用 了 elevator_ 
dispatch_fn() 回 调 函 数 ; elv_attempt_insert_merge() 下 
游 调用 了 elevator_merge_req_fn() 回 调 函 数 。 这 些 回 
调 函 数 的 具体 实现 ， 篇 幅 所 限 ， 大 家 可 自行 了 解 ， 
如 图 10-284 所 示 。 

在 开始 探索 request_fn0 下 游 流 程 之 前 ， 我 们 先 来 看 
一 下 上 述 的 一 些 关 键 数据 结构 都 是 在 什么 时 候 被 初始 
化 的 。 


10.9.3 ”相关 数据 结构 的 初始 化 


回顾 一 下 图 10-276 左 上 角 的 request_queue 结 构 
体 中 的 的 5 大 关键 字段 : 串 接 了 一 串 request 的 queue__ 
head 表 头 锦 点 、 描 述 本 设备 采用 哪 种 IO 调度 算法 的 
elevator、 用 于 生成 和 入 队 request 的 函数 指针 make_ 
request_fn、 用 于 将 request 派 发 给 下 层 处 理 的 函数 指针 
request 和、 用 于 将 request 转 换 为 底层 设备 所 能 识别 的 
命令 协议 (比如 SCSI、ATA 等 ) 的 函数 指针 prep_rq_ 
血 。 本 节 就 来 深究 一 下 包括 request_queue 以 及 其 中 的 
这 些 字段 都 是 被 谁 在 哪 一 步 初始 化 填充 的 。 


下 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


| 查找 适合 前 项 合并 某 bio 的 request 


;一 -> 从 队列 中 取出 最 合适 的 request 派 发 
req_fn; 一 一 > 向 队列 中 插入 一 个 新 的 request 


Feq_fn 计 > 去 激活 request 


pleted req fn; 一 [> Request 执行 完 后 需要 执行 的 动作 


ge_fn p 判断 bio 是 否 被 允许 合并 到 request 中 
eq_fn ;一 -激活 request 


ged_fn;— p> bio 被 合并 到 request 之 后 要 执行 的 一 些 必要 处 理 
eq_fn;—— n 取 排 在 参数 给 出 的 request 之 前 的 request 
eq_fn ;一 一 > 取 排 在 参数 给 出 的 request 之 后 的 request 

_Teq_fn; 一 一 一 一 [+ 为 request 分 配对 应 的 电梯 算法 数据 结构 
*elevator put req fn; — -回收 之 前 分 配 的 电梯 算法 数据 结构 


нежан ва Воја 
一 本 电梯 算法 退出 时 调用 的 洛 理 函 数 


(*trim)(struct io context *); 


ged_fn ; 一 bio 被 全 并 到 request 之 后 要 执行 的 一 些 必要 处 理 


ge_req_fn; 一 一 > 将 新 生成 的 request 与 其 他 request 合 并 
may_queue_fnj; 一 一 检查 request 是 否 可 以 被 加 入 队列 
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void 
) « end elevator ops » ; 


unsigned int registered:1; 


h 


电梯 算法 的 回调 函数 表 


图 10-282 


10.9.3.1 request_queue 初 始 化 


对 request_queue 的 初始 化 要 追溯 到 底层 设备 扫描 
过 程 。 假 设 底层 设备 为 一 个 使 用 SCSI 协 议 作为 交互 
命令 协议 的 硬盘 〈 比 如 SAS 接 口 的 硬盘 ) ， 该 SAS 硬 
盘 所 连接 的 HBA 适 配 卡 驱 动 程序 在 初始 化 时 会 导致 
scsi scan host() > do scsi scan hostO > scsi scan host | 
selected() > scsi scan channel() > _ 5651 scan target() 
> scsi probe and add lun() > scsi alloc sdev() > scsi _ 
alloc_queue() 被 调用 。 这 个 过 程 针对 每 一 个 被 发 现 的 
SCSI 设 备 都 执行 一 次 。 

该 函数 调用 scsi_alloc_queue(sdev->host, scsi_ 
request #1) > ЫК init queue() > ЫК init queue поде() > 
kmem _cache_alloc_node() 分 配 了 一 个 空 request_queue 
结构 体 并 做 一 些 基 本 填充 ， 返 回 到 blk_init_queue_ 
node0， 再 走 入 blk init allocated queue_node(0) 来 做 进 
一 步 初始 化 。 

ЫК init allocated queue node() 中 会 将 scsi_ 
request 名 0) 指 针 赋值 给 q->request_ 血 ， 同 时 调用 blk_ 
queue make request(0 来 将 “make request()JÉ T It (i 
给 q->make_request_ 血 。 这 一 步 完 成 了 上 述 5 大 关键 字 
段 中 的 两 个 的 初始 化 。 

blk init allocated queue node() > elevator init() 
会 对 本 request_queue 使 用 的 IO 调度 算法 进行 初始 
1L. elevator init() > elevator_get(O) 会 从 系统 的 配置 信 
息 中 获取 到 用 户 所 配置 的 调度 算法 ; elevator_init() > 
elevator_alloc0 会 根据 相应 调度 算法 来 创建 对 应 的 空 
数据 结构 (不 同调 度 算法 有 不 同 种 类 、 数 量 的 数据 结 
Жі) 并 做 基本 填充 ， 图 10-282 中 所 示 的 struct elevator_ 
queue( } 及 其 内 部 包含 的 次 级 数据 结构 就 是 在 这 一 步 
被 创建 的 ，elevator_init( > elevator_init_queue() 则 针 
对 分 配 好 的 elevator_queue 及 其 内 含 的 数据 结构 进行 进 
一 步 初始 化 ， 由 于 这 个 初始 化 过 程 与 每 种 调度 算法 强 
相关 ， 所 以 elevator_init_queue() 内 部 直接 执行 调用 对 
应 调度 算法 提供 的 elevator_init_ MOEA RŽ 〈 图 10- 
282 右 侧 ) 进行 初始 化 配置 : return eq->ops->elevator_ 
init fn(q)。 最 后 ，elevator init() > elevator attachO 将 
初始 化 好 的 elevator_queue 结 构 体 赋值 给 request_queue- 
>elevator 字 段 ， 同 时 将 elevator_init_queueO 初 始 化 好 
并 返回 的 用 于 存放 IO 调度 器 各 种 配置 参数 的 数据 结 
构 ( 比 如 CFQ 对 应 的 就 是 struct са data( } ) 指针 赋值 
给 request_queue->elevator->elevator_data 字 段 。 

最 后 返回 到 scsi_alloc_queue()， 继 续 走 入 blk_ 
queue_prep_rq(q, scsi_prep_ 徊 )， 该 函数 执行 q->prep_ 
rq fn = scsi_prep_fn， 将 scsi_prep_fn() 注 册 到 对 应 
的 request_queue 中 的 prep_rq 血 字 段 ， 如 图 10-285 
所 示 。 

scsi_alloc_sdev0O 针 对 扫描 到 的 SCSI 设 备 分 配 了 
一 个 struct scsi_device 结 构 体 ， 并 对 该 结构 体 做 一 
定 的 初始 化 填充 ， 该 结构 体 主 要 用 于 记录 该 SCSI 设 
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[define ELEVATOR INSERT FRONT 1 сазе ELEVATOR INSERT SORT: 
Hidefine ELEVATOR INSERT BACK 2 BUG ON(rq-»cmd type !- REQ TYPE FS && 
|sdefine ELEVATOR INSERT SORT З !(rq-»cmd flags 8 REQ DISCARD)); 


define ELEVATOR INSERT REQUEUE 4 ы s SORTED; 
|#define ELEVATOR INSERT FLUSH 5 rq em ee | RE локтар; 
Midefine ELEVATOR INSERT SORT MERGE 6 ыы d 

= 一 一 一 if (rq mergeable(rq)) { 


switch (where) ( elv rqhash add(q, га); 
Case ELEVATOR INSERT REQUEUE: if (!q-»last merge) 
Case ELEVATOR INSERT FRONT: q-»last merge - rq; 
rq-»cmd flags |- REQ SOFTBARRIER; 一 
=> list_add(&rq->queuelist, &q->queue_head);j —Pq-»elevator-»ops-»elevator add req fn(q, га); 
break; break; 一 
сазе ELEVATOR INSERT BACK: 
rq-»cmd flags |- REQ SOFTBARRIER; сазе ELEVATOR INSERT FLUSH: 
--> elv drain elevator(q); rq-»cmd flags |- REQ SOFTBARRIER; 
list add tail(&rq-»queuelist, &q-»queue head); | —% blk insert flush(rq); 
— lk run queue(q); break; 
break; default: 
сазе ELEVATOR INSERT SORT MERGE: PN GEN — MEER, 
— if (elv attempt insert merge(q, rq))| BUG(); 一 теі т 
break; } « end switch where » 


图 10-283  elv add request 13132 48. 


10-284 IO 调度 层 主干 函数 流程 一 览 


q->request_ fn = scsi request fn 


q-»prep rq fn = scsi prep fn 


q-»make request fn = make request 


return eq-»ops-»elevator init fn(q) 


request queue-»elevator = ххххх; request queue-»elevator-»elevator data =XXXX 


10-285 request queue 相 关 结 构 初始 化 流程 


备 的 一 些 SCSI 层 面 的 信息 ， 而 并 没有 记录 其 作为 硬 ”从 而 可 以 找到 struct block device operations *fops 以 
盘 设 备 而 应 具有 的 属性 ， 后 者 被 记录 在 scsi_disk、 及 request_queue， 然 后 找到 request_queue 中 的 各 种 
gendisk 和 block device 结 构 体 中 。 再 次 可 以 回顾 本 字段 。 
对 这 些 

中 对 这 些 结构 体 之 间 的 关系 的 相关 。 10.9.3.2 gendisklscsi_disklblock_device 初 始 化 

request_queue 其 实 是 先 被 挂 到 了 scsi_device 结 构 内 核 初 始 化 时 会 调用 init sd0 来 初始 化 SCSI Disk 
体 中 的 struct request_queue 上。 而 在 后 续 的 初始 化 过 子 系统 。init_sd() > err = scsi_register_driver(&sd_ 
程 中 ，request_queue 会 同时 被 登记 到 struct gendisk template.gendrv) > driver register() > bus add driver() > 
中 ，gendisk 再 被 挂 到 struct block_device 中 。 在 文件 driver_attach() > bus for each 4еу() > driver attach() 
读 写 过 程 中 ， 代 码 根据 block_device 找 到 gendisk， > driver match device0。 其 中 ，scsi register driver() 


于 驻 大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


将 一 份 如 图 10-286 所 示 的 struct scsi_driver sd template( } 
中 的 struct device driver gendrv{ } 结 构 体 登记 到 内 核 中 。 
gendrv 中 记录 的 回调 函数 ， 以 及 scsi_request_fn() 等 函 
数 ， 共 同 构成 了 SCSI 硬 盘 设 备 的 驱动 程序 ， 或 者 说 
SCSI 块 设备 驱动 程序 。 


static struct scsi driver sd template = ( 


„owner = THIS_MODULE, 
.gendrv = 
.name = "sd", 
„ргође = sd probe, 
.remove = sd remove, 
.suspend = sd suspend, 
.resume = sd resume, 
„shutdown = sd shutdown, 
.rescan = sd rescan, 
.done = sd done, 


n 
10-286 ”SCSI 硬 盘 的 驱动 程序 


每 当 有 一 个 driver 被 注册 到 系统 中 ， 就 会 触发 driver_ 
attach() > bus for each dev() > driver attach() > driver - 
match device0， 来 看 看 新 注册 的 驱动 可 以 与 哪个 现存 设 
备 配套 ， 匹 配 成 功 则 走 入 _driver_attachO > driver probe - 
device() > really probe() > drv->probe(dev)， 最 终 调用 对 应 
驱动 的 probe 回 调 函 数 。 对 于 SCSI 硬 盘 来 讲 就 是 调用 了 
sd probe(). 

驱动 注册 之 后 ， 如 果 有 新 加 入 的 对 应 设备 ， 则 
依然 会 再 次 调用 probe 回 调 函 数 。 比 如 有 某 个 SCSI 
硬盘 设备 被 插入 系统 ， 则 会 触发 扫描 ， 执 行 下 面 的 
流程 : scsi probe and add lun() > scsi_add lun() > 
scsi sysfs add sdev() > device add (&sdev->sdev_ 
gendev) > bus probe device() > bus for each drv() 
> device attach() > driver probe device() > really | 
probe() > drv->probe(dev)。 其 中 ，sdev 变 量 名 表示 
struct scsi_device 结 构 体 ， 变 量 名 drv 表 示 sd_template. 
gendrv 结 构 体 。 

gendisk〔 变 量 名 gd) 、scsi_device (变量 名 sdkp， 
表示 scsi disk pointer) 、block_device (变量 名 bdev) 这 
三 个 表征 一 块 SCSI 硬 盘 设 备 的 关键 结构 体 都 是 在 sd_ 
probeO 下 游 生成 并 初始 化 的 。 其 中 ，scsi_disk 结 构 体 直 
接 在 sd_probe0 函 数 主体 被 生成 和 填充 ，gendisk 结 构 体 
则 是 在 sd_probe() > alloc_disk0 内 生成 ,而 block_device 
结构 体 则 是 在 sd_probeO > sd probe async() > add disk() 
> register disk0 内 生成 的 。 

此 外 ，sd_probe() 还 做 了 一 个 很 关键 的 动作 ， 比 
如 sd_probe >sd_format_disk_name()， 就 是 在 该 函数 下 
游 将 对 应 的 硬盘 设备 命名 为 诸如 sda、sdb 的 。 

ЖН, sd ргође() > sd probe азупс() > ЫК queue | 
prep_rq(sdp->request_ queue, sd prep fn)jiX— 4J, 4# 
scsi_device 中 的 request_queue->prep_rq_ 血 赋值 为 sd_ 
prep_fn()。 这 里 的 一 个 疑问 在 于 ， 在 scsi_alloc_sdevO 
函数 中 已 经 将 prep_rq 血 赋值 为 scsi_prep fn0 了 ， 为 何 
这 里 又 将 其 更 换 为 sd_prep 102 原因 在 于 ， 初 期 赋值 


的 scsi_prep 名 0 是 针对 所 有 SCSI 设 备 〈 不 只 是 硬盘 ) 
的 通用 的 、 可 以 将 request 转 换 为 SCSI 公 共 命 令 的 函 
数 ， 其 被 用 于 早期 初始 化 ， 而 sd_prep_ 名 0 则 是 专门 针 
对 SCSI 硬 盘 的 。 

大 家 可 以 抓 住 scsi probe and add lun()iX4 A. 
口 来 梳理 request_queue、scsi_device、gendisk、scsi_ 
disk、block_device 结 构 体 的 初始 化 过 程 。 这 几 个 结 
构 体 内 部 有 对 应 的 字段 相互 指向 ， 从 其 中 一 个 可 以 
找到 另 一 个 ， 比 如 从 request 中 的 rq_disk 字 段 可 以 找到 
本 request 对 应 的 gendisk; 从 request_queue->queuedata 
指针 可 以 找到 本 request_queue 对 应 的 scsi_device; 从 
scsi_disk->disk 可 以 找到 本 SCSI 硬 盘 对 应 的 gendisk， 


10.9.4 ”从 块 设 备 驱动 到 SCSI 中 间 层 


回 过 头 来 看 q->request_fn() 也 就 是 scsi_request_ 
fn(q)， 其 调用 blk_peek request(q) > — elv next | 
request() 来 摘出 一 个 request 执 行 。__elv_next_ 
request() 内 部 会 首先 判断 当前 的 request_queue 中 是 
否 尚 有 余 存 的 request， 有 则 返回 队 首 的 request; 
如 果 队 列 已 经 空 了 ， 则 调用 q -> elevator -> ops -> 
elevator_dispatch_fn() 回 调 函 数 从 对 应 的 IO 调度 模 
块 内 部 私有 队列 中 按照 对 应 的 调度 算法 找 出 一 个 
request 加 入 到 request_queue 中 ， 然 后 跳 到 循环 开始 
处 继续 尝试 ， 此 时 request_queue 不 为 空 ， 则 摘出 刚才 
被 加 入 的 这 条 request 返 回 给 外 层 函 数 。 

下 一 步 ，blk_peek_request (0 调用 q->prep_rq_fn(q, 
rq)， 按 照 request 中 的 信息 生成 对 应 的 SCSI 命 令 。 
4->ргер_га 血 回 调 函 数 之 前 被 注册 为 sd_prep_fn0 函 数 。 
篇 幅 所 限 ，sd_prep_fn0 组 装具 体 的 SCSI 命 令 的 过 程 请 
大 家 自行 了 解 。sd_prep_fn0 会 将 组 装 好 的 SCSI 命 令 描 
述 结构 struct scsi_cmnd 挂 接 到 request->special 指 针 字段 
中 。 值 得 一 提 的 是 ，scsi_cmnd 结 构 体 中 不 仅 包含 SCSI 
命令 ， 还 包含 一 系列 辅助 该 命令 被 执行 的 信息 ， 比 如 
要 读 写 的 数据 在 内 存 中 的 位 置 等 ， 以 便 HBA 硬 件 通过 
DMA 来 存 取 这 些 数据 。 

下 一 步 ，scsi request. fn(0) 将 生成 好 的 struct scsi_ 
cmnd 作 为 参数 来 调用 scsi_dispatch_cmd()。 后 者 在 做 
了 一 系列 检查 之 后 ， 调 用 cmd->device->host->hostt-> 
queuecommand(host, cmd) 回 调 函 数 ， 最 终 将 该 命令 派 
发 给 底层 HBA 驱 动 程序 注册 的 queuecommand 回 调 函 
数 执行 。 

scsi request fn() 会 循环 执行 上 述 操作 ， 一 直到 
队列 为 空 再 也 摘 不 出 任何 request 或 者 底层 模块 的 send 
queue 已 满 为 止 ， 此 时 则 跳出 循环 。 

所 谓 SCSI 中 间 层 ， 指 的 就 是 包括 sd_prep_fn() 
等 函数 在 内 的 为 块 设备 驱动 提供 公共 服务 的 系列 函 
数 ， 其 供 块 设备 驱动 调用 。struct scsi cmnd{ } 最 终 
由 块 设备 驱动 直接 调用 底层 HBA 了 驱动 提供 的 回调 函 


数 而 得 到 派发 。 到 了 这 一 步 ，request、bio 都 已 经 被 
隐藏 ， 底 层 HBA 驱 动 程序 处 理 的 就 是 SCSI 命 令 ， 虽 
然 struct scsi спа; } 的 指针 依然 被 记录 在 request- 
>special 字 段 。 


10.9.5 从 SCSI 中 间 层 到 通道 控制 器 驱动 


queuecommand 回 调 函数 就 是 底层 HBA 通 道 控制 

器 驱动 程序 的 总 入 口 。 该 函数 因 不 同 厂商 的 HBA 而 不 
同 ，HBA 驱 动 需要 将 该 函数 登记 在 一 份 由 内 核定 义 的 
struct scsi_ host template( } 中 〈 如 图 10-287 所 示 ) ， 然 
后 将 其 作为 参数 ， 调 用 内 核 提供 的 scsi_alloc_ host()^E 
成 一 份 struct sesi host( } 并 将 scsi_ host template 中 的 对 
应 参数 填充 到 scsi_ host 中 对 应 字段 。 
static struct scsi host template pqi_driver_template = { 

.module - THIS MODULE, 

.name - DRIVER NAME SHORT, 

.proc name - DRIVER NAME SHORT, 

-queuecommand = РОЈ SCSI QUEUE COMMAND, 

.5сап start = рді scan start, 

.Scan finished = рді scan finished, 

.this id = -1, 

.use clustering - ENABLE CLUSTERING, 

.eh device reset handler - pqi eh device reset handler, 

„ioctl = рді ioctl, 

.slave alloc = рді slave alloc, 

.5беу attrs = рді sdev attrs, 

.shost attrs = рді shost attrs, 


10-287 某 HBA 对 应 的 scsi_host_template 结 构 体 


然后 HBA 驱 动 继续 调用 scsi_add_host() 将 填充 好 
的 scsi_host 结 构 体 注册 到 系统 中 ， 该 函数 会 将 scsi_ 
host 结 构 体 中 的 信息 与 其 他 相关 的 数据 结构 做 对 应 的 
关联 。 

PQI SCSI QUEUE_COMMAND 是 一 个 宏 ， 其 根 
据 不 同 配 置 对 应 了 不 同 函数 ， 在 此 不 多 展开 。 常 规 配 
置 下 ， 其 对 应 了 pqi_scsi_queue_command0， 该 函数 内 
部 根据 不 同情 况 会 调用 不 同 下 游 函 数 ， 比 如 pqi_aio_ 
submit scsi cmd0， 如 图 10-288 所 示 。 

该 函数 首先 调用 pqi_alloc_io_request0 来 创建 一 份 
struct pqi_io_request 结 构 体 并 填充 ，pqi_io_request 结 
构 体 是 用 于 在 该 HBA 了 驱动 与 HBA 之 间 相互 传递 的 信息 
包 ， 它 就 像 bio、scsi_cmnd 一 样 ， 由 派发 者 生成 ， 接 
收 者 来 解析 执行 。 在 这 里 ， 接 收 者 和 执行 者 当然 就 是 
HBA 控 制 器 的 固件 程序 了 。 

pqi_aio_submit_scsi_cmd() 然 后 调用 pqi_build aio_ 
sg_list0 来 根据 scsi_cmnd 中 的 信息 创建 对 应 的 、 可 供 
HBA 固 件 解析 识别 的 Scatter Gather List( 见 第 7 章 7.1.4 
节 ) 并 将 对 应 的 SGL 信 息 挂 接 到 pqi_io_request 中 的 sg_ 
chain_buffer 指 针 字 段 。 

pqi aio submit scsi cmd0 最 终 调用 pqi_start io0。 
pqi start io0 首 先 调用 list_add tail(&io_request->request_ 
list entry, &queue_group->request_list[path]) 来 将 上 一 步 
填充 好 的 io_request 加 入 到 由 HBA 驱 动 程序 维护 的 发 送 
队列 中 。 


第 10 章 “计算 机 操作 系统 一 一 舞台 幕后 的 工作 者 [ER 生生 


раі start 10() Ж 19/9 writel() 将 生成 好 的 io_ 
request 所 在 的 队列 位 置 索 引 值 写 入 到 HBA 硬 件 对 应 
的 iq_pi 寄 存 器 中 。iq_pi 表 示 inbound queue producer 
index。 这 个 机 制 可 以 回顾 第 7 章 7.1.5 节 。 一 直到 这 一 
步 ， 当 前 任务 才 算 跑 完了 上 半 场 ， 函 数 不 断 地 返回 ， 
当前 任务 内 核 栈 里 的 栈 帧 一 层 层 被 销毁 声 塌 。 返 回 到 
哪里 ? 

do generic file read0 下 发 IO 之 后 ， 如 果 IO 进入 
了 plug 队 列 ， 则 返回 ， 之 后 继续 调用 trylock_page() 来 
尝试 锁定 页 面 ， 如 果 锁 定 失败 ， 证 明 底层 IO 尚未 完 
成 (如 果 完 成 则 对 应 的 完成 处 理 函 数 会 解锁 该 页 ) ， 
则 会 继续 调用 lock_page_killable() > _ lock page | 
killable() > sleep on page killable() > sleep on page() 
> jo schedule() > schedule0 将 当前 任务 休眠 ， 不 过 ， 
在 切换 任务 之 前 ，schedule0) 会 把 plug 队 列 中 的 request 
泄 掉 《前文 提 到 过 ) ， 会 调用 blk_schedule flush plug) 
> blk flush plug 11510) > queue unplugged() > _blk run - 
queue() > q->request_fn(q) 来 向 下 层 派 发 request， 从 
而 才 最 终 走 到 writel() 写 寄存 器 的 操作 ， 一 路 返回 到 
schedule0 之 后 ， 最 终 将 当前 任务 休眠 。 

就 这 样 ， 当 前 任务 在 马不停蹄 调用 了 大 量 函 数 
之 后 ， 终 于 可 以 喇 息 了 。 当 前 任务 会 在 LO 完成 时 被 
唤醒 继续 跑 下 半 场 。 与 此 同时 ，HBA 设 备 正在 利用 
DMA 从 内 存 中 取 回 对 应 的 io_request 在 后 台 执行 。 这 
期 间 的 事情 经 过 可 以 参考 第 7 章 图 7-230 所 示 的 IO 处 理 
流程 。 从 HBA 控 制 器 硬件 到 硬盘 之 间 的 VO 路 径 过 程 
可 以 参考 7.1 节 开头 部 分 。 


10.10 网络/O 协 议 栈 


本 节 我 们 来 看 一 下 应 用 程序 通过 网 络 来 发 送 数 
据 的 流程 框架 。 建 议 大 家 回顾 第 7 章 7.1.7 节 和 7.3 节 
的 内 容 。 图 10-289 为 网 络 数据 收发 过 程 的 一 个 再 次 
总 结 。 

此 外 ， 在 图 7-33 中 ， 我 们 介绍 过 应 用 层 统一 使 用 
socket 接 口 来 实现 网 络 数据 收发 ， 这 个 socket 到 底 具 
体 体现 为 什么 形式 ? 如果 是 对 文件 系统 、 块 设备 的 
读 写 ， 内 核 提 供 的 就 是 sys_read、sys_write 之 类 的 系 
统 调用 接口 ， 用 户 态 的 库 再 封装 一 层 ， 将 不 得 不 用 
汇编 语言 编写 的 int 80h 系 统 调用 代码 封装 成 C 语 言 函 
数 接口 ， 比 如 read0、write0， 或 者 fileread() 等 更 上 层 
封装 。 

对 于 socket 来 讲 ， 一 样 是 通过 系统 调用 方式 与 
内 核 交 互 。 如 图 10-290 所 示 为 2.6.39.4 版 本 内 核 与 
socket 相 关 的 系统 调用 接口 一 览 。 值 得 一 提 的 是 ， 应 
用 程序 也 是 通过 VFS 层 与 socket 交 互 的 ， 也 就 是 说 ， 
socket 也 是 使 用 file descriptor 的 形式 与 应 用 交互 ， 
应 用 程序 只 需要 向 该 fd 进行 读 写 调用 即 可 实现 网 络 
收发 。 


ЖШ 80 | ER ph [н]ршешшодәпәпЬ HE 14 Нуе УЯН 887-01 B 


« pueuuoj ananb 1525 Tbd pua » ( 


DJ UJn3aJ 
f(Sutpue3s3no 5рш> 1525<-азтлеру)зер этшоҙе 
"T ) 
“人 J3ue 3sTT і5әпһәл peau 35ТТ 32nJ3s Tere CO 
“пт, ртол үн 
әтриец ешр Jsjjnq ureu» 3s 3 Jppe eup f (dnou8"onanb 
f4944nq чтецо 3s, Jo3dTJ5sap 85 rbd 32п43$ ‘puss “aoTAap *ojur [.32)pu»^rsos"3Tuqns pre rbd = 41 әѕтә 


€ әгі f(dnou8 ananb 
"ОЗ O pron «ршәѕ “әотләр *ojur TJ32)puo rs2s 3Tuqns ore Tbd = ju 
“Pu2s*_Puu2 1525 32nJ3S (paTqeua оте<-әэтләр) ӱр 
‘dnoJ3 enenb, dnoJ3 ananb rbd 32п43$ } asta ( 
‘snyeys f(dno48 ananb 
рды, “рш>$ “әотләр *ojur [J32)puo rsəs 3Tfuqns pfeJ Tbd = 54 
то: ssedÁq pre4 pur тләр “оит [432)pur Fuqns рте ті 


(passedAq presi) эт 
“ахәҙиоэ, Я PE t 
H 5anJ3 = pessedÁq pres 
ф = PUT f(3xequo2, PFOA (ASn8 1soH 303001W 1525 == 2: || 0 == 24) $F 
4sanbaJ or, 3sanbau от rbd 32п43$)(хэ>еатте> e3e[duoo or.) pro^ f(dnoJ8 әпәпь “puos 
fxepur 9тп “әзтләр “ojuT [J32)puo rsos 3Tuqns ssedÁq pre4 rbd = 54 
= } (53 3dA1 Day == ad 人 3 puo«-3sanbau«-pu»s 
Гаџпозјал 3 этшозе 33 рәтдеиә ssedÁq ртел<-әотләр) ЈЕ 
} зѕәпрәл or rbd 321-135 YasTej = passedíq pres 
} ((әэтләр)әэтләр TeoTSoT өт rbd) ут 
f[enenb mu]sdnou8 enenb«-ojur [4329 = dnoJg enenb 


“(әвте) “TINN “Чпол8 епепр “uaT-puo<-puos *puuo«-puos (pews *ojur [.32)onanb mj 328 ybd = ononb Mu 


*atpueu ore«-eorAep 'puos “oup [432)or 3Tuqns ore rbd илпҙәл Pp = in pad 

“// 

(dnou8 әпәпБ, dnoJ3 ananb rbd 32п43$ fdnoJ3 ananbv dnoJ8 enanb Tbd_3onaqe 

E _ “Pus, puu» rsos 32nJ3s “әэтләр, ләр тѕэѕ Tbd 32П435 зар, Aap şes bd s 

[oyuF T4312. оит [432 rbd зэплзѕ)ршэ 1525 jruqns ore Tbd aur эиттит or3e3s fogur 1432. OJUT [412 ibd 33nu3s 
š = = = хәл UT } 


(puss, риш> 1525 зэпазѕ '3sous, 350Н 1525 32n3s)pueumo2 ananb 1525 rbd wr 


的 工作 者 号 了 


后 | 


第 10 章 计算 机 操作 系统 一 一 舞台 幕 


HOAHOA HHI 69; 067-016 


Хаповилћ, Jasn эәйзәшп pnas 5беу pau6ısun ‘uan уш! рәибугип бзш, esr эрубзшш jms ‘py ju6suuuunoai 545 Buoj a6eyulluse 
Хеј pauBısun біш, asn pusu ona pj tullósuyoə ss uo 


шә уш 'әшеи, sasn™ эецә}әшешшешорцәз^5з Buoj эбедишее | ү 


225 уш)әуеәлә (jode 545 Био әбеңшішсе 

(Ee, sasn™ ions Gye jas lnqsjjpalas pio 545 био] эбелишзе 

(дл, јал“ lenawn pnns “хә, Jasn 一 as 了 j ‘dino, Jasn 125" pj ‘Аш, Jasn as pj иішідзәре 546 Био] әбеҳшүшѕе 
‘Qnoawn биој 'spju уш pau6lsun ‘spn, ләт” pyllod pnnsjllod-ss био) ab 

"Qui уш)чәзв! shs био) abi 

өбие, Jasn Buoj peubisun 'jje» уш!)үе23әх>0$ 545 Buoj әбехи! 

5, sasn дш 3ur уш 3urjaredyaxos 55 Buoj a6eulluse 


(чәңдо, esn ju 'үелуйо, Jasn eu» 'әшещао уш! ‘lanal 
(uendo уш eado, jesn лецә 'әшещдо уш әл: 


“йыл qui эш)уәҗәоз 5/5 био) әбеҳшішѕе 


CH RE РОЙ MAPK 682-0164 


^” 'ujn$328u2 "uyBuaj 
зоддизвер uina әмәлә 
(va) әзі 9 


“шор әзе spues Аиеш mou 53 
>Polq 91635 (ууч) әзердп 9 


Азошеу шеру 


зоред 

«тоже» a aooo 
ped 

ж s эм ebpug 


+ 


ped 
(ума) ом 5 


зәлше 
sepeda 由 эм 


EE I LE 


(1935160) o) 93) злоуји ер. 
meu әзе aled DIN 19; С 


joydupsep 
(esie) оу ey) sioidriosep. очни 
маи әзе әзәчї DIN 191 Z 


пао 


adnau ZL E 4 боп хи 
551dbosep әмезе руга 


pue sayng зәлзед әзеоју T siodu>səp pues рупа Т 
ped ی‎ үка جیروک‎ j арар > 
зәупд Аюшәш 1% Maece IN Коши 
EI ЕЛЕЛЕЛЕЛЕЛ оз и зәјѕшезу 399ped aui NEPIA ылы. шоу уред au 42124 ev 


[spa [чз] [зе] хан keer Ж MAN, jou vnped aui puas ©} DIN пој. зәл 
‘dhyana uo : р 
[aa] а | 43 ] poseq xsldninwu-ag пежред aui NEPIA 39412433 day шюрәа зарезц waya рру 32432433 
“010d dl uo paseq xajdnjnu-aq "wun$29u» гупдшој Са 1 
EE! аа sped anapa ОЕ В] “бойло, at uuoyad зәреәц dl PPY а 


"заупа pos or peopled puaddv dx r "wns»peu» aynduo аі т 


2 't92010)d 401 uru pue 821 ру ped әш NEPIA & i5 421 01 бшргюээе шәшбәз 421 NI 
ШЕШІ | jn eos әмәзән wa weg се msn а бирдс) | сер тэроазәйоз oljnqpusddedo | $24205 


чзозйиэәр әш әтерцел. ән uray чзоздиэәр әју әзерцел. әз Jouray 


Ш | (чә nq pppess | шопезійду | sasn Гвезе | Coal nq ррәше | чолелбду | sasn 


四 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


10.10.1 socket 的 初始 化 


如 图 10-291 所 示 为 socket 初 始 化 大 致 流程 。 在 内 
核 初始 化 过 程 中 会 通过 do_initcalls0 执 行 sock_init0 来 
对 socket 进 行 基本 初始 化 操作 。 在 sock init) > sk init() 
中 ， 对 一 些 全 局 参数 进行 赋值 ， 在 skb_init0 中 ， 创 建 
sk_buff 结 构 体 对 应 的 内 核对 象 缓存 。sk_bu 人 f 对 于 网 络 
协议 栈 就 像 bio 对 于 块 访问 协议 栈 一 样 ， 用 来 描述 网 
络 IO 请 求 。 由 于 其 频繁 被 创建 、 释 放 ， 所 以 需要 用 
到 内 核 object cache 机 制 〈 见 图 10-45 前 后 的 介绍 ) 。 
然后 调用 register_filesystem() 这 个 前 文中 见 过 的 函数 
将 一 份 登记 有 socket 文 件 系统 信息 的 sock_fs_type 结 构 
体 注册 到 系统 中 。 然 后 调用 kern_mount0 来 挂 载 socket 
文件 系统 ， 过 程 中 会 调用 由 socket 文 件 系统 注册 的 
sockfs_mount() 函 数 ， 将 sockfs_ops 以 及 sockfs_dentry_ 
operations 结 构 体 注册 到 系统 中 。 

socket 文 件 系统 这 个 词 让 人 很 费解 ， 向 某 个 IP 地 
址 发 送 数据 包 的 过 程 ， 为 什么 会 与 文件 扯 上 关系 ? 其 
实 ，Linux 内 核 为 了 统一 ， 也 使 用 VFS 来 调用 socket， 
这 意味 着 ， 向 某 个 IP 地 址 收发 数据 包 ， 其 实 是 向 某 个 
承载 着 socket 的 文件 发 起 读 写 1/O 请 求 。 可 想 而 知 ， 承 
接 该 文件 读 写 W/O 的 函数 底层 一 定 要 走 到 TCP/IP 协 议 
栈 、 网 卡 驱动 ， 而 不 是 去 走 通用 块 层 、SCSI 协 议 栈 、 
存储 通道 控制 器 驱动 。 而 且 还 可 以 想到 ， 必 须 将 需要 
通信 的 IP 地 址 、TCP 端 口号 等 细节 信息 通告 给 内 核 ， 
让 内 核 将 这 些 信息 与 该 socket 文 件 做 个 映射 关系 ， 比 
如 将 这 些 信息 记录 在 某 个 数据 结构 中 。 

为 了 适 配 上 述 这 种 设计 思路 ， 就 不 得 不 存在 
socket 文 件 系统 这 种 听 上 去 擂 口 的 概念 了 。 但 是 ， 按 
照 上 述 设 计 ， 本 地 机 器 的 每 个 TCP 连 接 都 对 应 着 一 
个 socket 文 件 系统 下 的 文件 ， 那 么 这 些 文件 被 放 到 哪 
里 ? 它们 预先 就 存在 么 ?对 于 诸如 EXT2 等 本 地 文件 
系统 ， 答 案 是 放 在 硬盘 上 ， 预 先 存在 或 者 动态 创建 都 
可 以 。 而 对 于 socket 文 件 系统 ， 能 够 想象 的 出 ， 答 案 
一 定 是 它们 只 能 是 临时 地 被 动态 创建 并 放 在 内 存 里 ， 


直到 应 用 程序 主动 关闭 通信 销毁 它们 。 另 外 ， 本 地 文 
件 系统 需要 有 个 挂 载 点 ， 以 便 应 用 程序 访问 ， 但 是 
socket 文 件 系统 则 根本 不 需要 这 个 挂 载 点 ， 因 为 TCP 
连接 是 动态 生成 和 关闭 的 ，socket 文 件 也 就 跟着 动态 
生成 和 销毁 ， 它 们 根本 是 居 无 定 所 ， 不 需要 一 个 固定 

所 以 ， 所 谓 socket 文 件 系统 ， 就 是 一 个 上 层 与 
VFS 对 接 去 应 付 VFS 规 定 的 那 套 VFS 层 的 super block, 
inode、dentry 等 数据 结构 管理 框架 而 后 方 则 交 上 对 应 
的 网 络 收发 包 相关 函数 的 operations 回 调 函 数 表 即 可 的 
空 壳 文 件 系统 ， 底 层 并 没有 本 地 文件 系统 支撑 。 


10.10.2 ”socket 的 创建 和 比 定 


程序 在 读 写 一 个 文件 之 前 必须 先 open 这 个 文件 ， 
open 过 程 中 会 做 进一步 准备 ， 比 如 为 该 文件 准备 好 对 
应 的 file ops 回 调 函 数 表 指针 并 将 其 放置 到 file 结 构 体 
中 ， 并 将 file 结 构 体 注册 到 当前 任务 的 打开 文件 array 
数组 中 ， 并 返回 数组 下 标 作为 句柄 。socket 文 件 也 是 
类 似 操 作 方 式 ， 但 是 由 于 socket 文 件 一 开始 是 不 存在 
的 ， 需 要 动态 创建 ， 所 以 程序 首先 需要 调用 socket 这 个 系 
统 调用 通知 内 核 动态 创建 一 个 socket 文 件 并 返回 句柄 。 

long socket(int family, int type, int protocoD)， 该 函 
数 包含 以 下 三 个 参数 。 

(1) family。 表 示 利 用 该 socket 所 发 送 的 数据 包 
属于 何 种 网 络 协议 族 。 比 如 INET 表 示 IPv4，INET6 表 
示 IPv6， 还 有 诸如 x25 这 种 古老 协议 ，Linux 所 支持 的 
全 部 网 络 层 协议 族 如 图 10-291 左 侧 所 示 。 在 此 只 关注 
PF INET. 

(2) type。 表 示 数 据 包 发 送 的 方式 〈 利 用 何 种 传 
输 层 协议 ) 。 比 如 SOCK_STREAM 表 示 基 于 连接 方式 
的 流 式 传输 〈 比 如 TCP) ，SOCK_DGRAM 表 示 无 连 
接 的 数据 报 方式 (比如 UDP) , SOCK RAW А 
定义 传输 层 包 头 方式 。Linux 支 持 的 传输 层 协议 方式 
如 图 10-291 右 侧 所 示 。 


static int init SOCK_init(void) 
{ int err; 

sk init(); 

skb ілі); 


.name - 
init inodecache(); "MOUDE = 
err = register filesystem(&soch fs type) -kill_sb = 
if (err) goto [out fs; ; 


static struct file system type sock fs type - (| 


sockfs mount Š 
kill anon super, 


sock mnt = kern mount(&sock fs type); 


if (IS ERR(sock mnt)) ( 
err = PTR ERR(sock mnt); 


[static struct dentry *SOCKfS mount(struct file system type “Ұз type, 
int flags, const char "dev name, void "data) 


goto |out mount; К 


|j#ifdef CONFIG NETFILTER H 


return mount pseudo(fs type, "socket:' 
&sockfs dentry operations, SOCKFS MAGIC); 


:", &sockfs ops, 


netfilter init(); 


#endif 

#ifdef CONFIG NETWORK PHY TIMESTAMPING 
skb timestamping init(); 

Wendif 

out: 


-а11ос inode 


.statfs 


return err; 5 


Etatic const struct super operations sockfs ops = {| 


-destroy inode = sock destroy inode, 
- simple statfs, 


- sock alloc inode, 


lout mount: 


unregister filesystem(&sock fs type); 
lout fs: 
goto Tout; 
init » 


}; 


static const struct dentry_operations sockfs dentry operations = (| 
-4 dname = sockfs dname, 


10-291 ”socket 初始 化 过 程 


(3) protocol。 对 于 某 个 协议 族 而 言 ， 其 内 部 
又 包含 多 种 协议 ， 比 如 TCP/IP 协 议 族 内 部 除了 网 络 
层 IP、 传 输 层 TCP/UDP 之 外 ， 还 有 诸如 ICMP 等 协议 
用 于 控制 比如 echo 探 寻 等 过 程 。protocol 参 数 就 是 用 
于 指定 所 发 送 的 数据 包 属于 何 种 子 协议 的 。Linux 所 
支持 的 TCP/IP 协 议 族 内 的 所 有 子 协议 如 图 10-292 中 间 
如 果 应 用 要 连接 对 方 的 HTTP 服 务 ， 也 就 是 TCP 
80 端 口 ， 那 么 创建 socket 时 ，family 需 要 指定 为 PF_ 
INET，type 需 要 指定 为 SOCK_STREAM，protocol 需 
要 指定 为 IPPROTO_TCP。 如 果 应 用 只 想 发 送 ICMP 
数据 包 ， 也 就 是 Ping， 那 么 family 为 PF_ INET、type 为 
SOCK RAW、protoco] 为 IPPROTO_ICMP。 而 如 果 应 用 
要 发 送 自 定 义 上 层 协议 的 中 包 ， 那 么 family 为 PF INET、 
type 为 SOCK RAW, protocol/JIPPROTO RAW. 
选择 了 何 种 参数 ， 会 直接 影响 内 核 处 理 数 据 包 
的 路 径 。 比 如 选择 了 PF_INET 和 IPPROTO_TCP， 内 
核 将 无 条 件 对 所 有 数据 加 上 TCP 头 和 IP 头 。 而 如 果 选 
择 了 PF_INET+SOCK_RAW+IPPROTO_RAW， 则 内 
核 只 会 给 数据 包 加 上 IP 头 ( 仅 当 程序 调用 setsockopt() 
来 使 能 IP_HDRINCL 选 项 时 内 核 才 自 动 加 IP 头 ， 否 则 
不 自动 加 ， 应 用 自己 来 加 任意 包头 ) ， 其 他 头 部 〈 如 
有 ) 是 应 用 层 自己 加 的 ， 如 图 10-293 所 示 。 
如 果 用 户 不 想 让 内 核 负 责 处 理 任何 上 层 协议 ， 
想 完全 自己 组 装 数据 包 的 所 有 部 分 〈 包 括 以 太 网 帧 
头 ) ， 内 核 只 负责 将 数据 包 传送 给 以 太 网 卡 驱 动 ， 后 
者 将 数据 包 直 接 传递 给 网 卡 ， 可 以 使 用 PF РАСКЕТЖ 
型 的 协议 族 来 创建 socket， 比 如 socket(PF PACKET. ЗОСК_ 
RAW, IPPROTO RAW)。 仍 有 其 他 办 法 实现 从 应 用 层 发 包 
直通 以 太 网 层 ， 比 如 Intel 提 供 的 DPDK 库 ， 或 者 以 太 网 卡 
驱动 向 用 户 态 暴露 的 一 些 私有 接口 等 方式 。 
socket 系 统 调用 内 部 首先 会 创建 一 份 struct socket 
*sock 表 格 ， 然 后 调用 sock_create(family, type, protocol, 
&sock) 创 建 并 初始 化 sock 结 构 体 ， 该 结构 体 汇总 记录 
了 一 个 socket 全 部 的 信息 ， 其 下 游 嵌 套 了 多 个 次 级 结 
构 体 ， 总 容量 非常 庞大 。 之 后 ，socket 系 统 继续 调用 
sock map fd()- sock alloc file0、sock map #40 > fd ` 
install0， 申 请 一 个 file 结 构 体 ， 并 将 其 作为 一 个 打开 
文件 放 入 到 当前 任务 的 打开 文件 array 中 。 当 然 ， 在 这 
个 过 程 中 还 会 将 socket 专 用 的 socket_ file ops 回 调 函 数 
表 〈 如 图 10-294 左 侧 所 示 ) 注册 到 file->f_ op 字段 。 
至 此 ， 一 个 socket 就 被 创建 好 了 ， 但 是 很 显然 
缺 了 两 个 关键 信息 : 第 一 ， 这 个 socket 是 通 向 哪里 的 
(目标 IP 地 址 和 端口 号 ) ; 第 二 ， 如 果 本 地 有 多 个 
网 口 、 多 个 IP 地 址 (或 者 一 个 网 口 被 设置 了 多 个 IP 
地 址 ) ， 这 个 socket 发 源 于 哪个 IP 地 址 后 的 哪个 端口 
号 ? 上 述 步骤 并 没有 处 理 这 两 个 关键 点 。 
Linux 内 核 提 供 了 bind 系 统 调用 来 让 应 用 程序 告 
诉 内 核 某 个 socket 应 该 与 哪个 源 IP 地 址 、UDP/TCP 
端口 号 相关 联 。bind(int fd, struct sockaddr _ user + 
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umyaddr, int addrlen)， 这 三 个 参数 不 需要 解释 ， 大 
家 相对 都 清楚 。 至 于 告诉 内 核 该 socket 的 目的 地 址 和 
端口 号 这 件 事 ， 是 在 connect 系 统 调用 中 做 的 ， 下 文 再 
介绍 。 

如 图 10-295 右 上 角 所 示 为 bind 系 统 调用 流程 。 
其 首先 根据 传 入 的 fd (file descriptor， 打 开 的 文件 
句柄 ) 参数 找到 该 za 对 应 的 struct socket， 然 后 将 地 
址 端口 号 参数 赋值 到 对 应 的 内 核 变量 中 ， 然 后 调用 
sock->ops->bind() 回 调 函数 。 该 回调 函数 位 于 struct 
proto_ops 回 调 函数 表 中 ， 该 表 会 在 socket 创 建 的 时 
候 根 据 对 应 的 family 参 数 选 择 对 应 协议 族 的 对 应 回 
调 函 数 表 向 socket 结 构 体 中 进行 登记 注册 ， 不 同 的 协 
议 族 有 不 同 的 bind 处 理 逻 辑 。 对 于 IPv4 也 就 是 INET 
协议 族 ，proto_ops 结 构 体 实际 上 为 inet_stream_ops， 
对 应 的 bind 回 调 函数 实际 上 为 inet_ bind0， 如 图 10-296 
所 示 。 

inet_bind() 调 用 sk > sk_prot (回调 函数 ， 指 向 
tep prot) > get port (回调 函数 ， 指 向 inet_csk_get_ 
ром) ，inet_csk_get_port0 会 根据 策略 从 本 地 空 闪 的 
TCP 端 口号 ， 然 后 将 也 地 址 、 端 口号 等 信息 填充 到 对 
应 的 结构 体 中 ， 以 供 后 续 使 用 。 


10.10.3 ”发 起 TCP 连 接 


connect 系 统 调用 过 程 如 图 10-297 所 示 。 可 以 
看 到 其 调用 了 sock->ops->connect() 回 调 函 数 ， 通 过 
查找 图 10-296 左 侧 的 回调 表 发 现 ， 其 对 应 了 inet_ 
stream_connect()。 该 函数 内 部 再 次 调用 了 sk->sk_prot- 
>connect0 回 调 函 数 ， 该 回调 函数 对 应 着 该 socket 所 使 
用 的 具体 传输 层 协 议 提 供 的 函数 ， 由 于 本 socket 选 择 
了 SOCK_STREAM 方 式 ， 也 就 是 采用 TCP 通 信 ， 所 以 
sk->sk_prot 对 应 的 是 struct prot tcp_prot{ }。 

struct prot tcp_prot{ } 中 的 connect 回 调 函数 对 应 了 
tcp_v4_connect()， 如 图 10-298 所 示 。 该 函数 内 部 会 向 
目标 IP 地 址 和 端口 号 发 起 TCP 三 次 握手 的 连接 过 程 。 
其 首先 调用 ip_route_connect0 来 做 路 由 查找 处 理 ， 然 
后 调用 tcp_connetO 向 目标 地 址 发 送 SYN 消 息 尝试 连 
接 ，tcp_connetO 会 构建 相应 的 sk_buff 结 构 并 派发 到 下 
层 发 送出 去 ， 同 时 还 会 设置 对 应 的 超时 定时 器 ， 一 旦 
超过 对 应 时 间 尚 未 接收 到 对 方 的 回应 ， 则 重 传 SYN 消 
息 。 设 置 完 定时 器 后 ，tcp_connet0 就 返回 了 ， 一 直 返 
回 到 inet_stream_connect()。 

inet_stream_connect() 随 即 调用 inet_wait_for_ 
connectO 再 次 设置 一 个 定时 器 ， 该 定时 器 负责 监控 整 
个 连接 过 程 的 超时 ， 其 内 部 会 主动 休眠 当前 任务 ， 
为 网 络 数据 包 的 收发 时 延 比较 大 ， 通 常 在 毫秒 或 者 计 
时 毫秒 甚至 秒 级 。 当 收 到 对 方 的 回应 后 ， 当 前 任务 会 
被 唤醒 继续 ， 如 图 10-298 所 示 。 

由 于 TCP 底 层 需要 处 理 的 场景 和 流程 比较 复杂 ， 篇 幅 
所 限 ， 就 不 多 介绍 了 。 
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э 们 此 时 已 经 站 在 了 计算 机 世界 的 顶峰 ，“ 会 当 44.1 ”工业 级 相关 计算 机 产品 
凌 绝顶， 一 览 众 山 小 。” 本 章 要 从 峰 项 纵身 一 


跃 ， 并 张 开 思 维 的 翅膀， 滑翔 到 我 们 旅程 开始 的 地 

方 。 你 看 ， 以 训 煌 为 国 心 的 东北 东 ! 这 民族 的 海岸 线 。 111*1 工业 控制 

X51 那 长 城 像 五 生年 来 待 射 的 梦 ! 我 用 手臂 拉 现代 的 工业 机 器 ， 比 如 数控 机 床 〔 如 图 11-1 所 
开 这 整个 土地 的 重 ! 蒙古 高 原 南下 的 风 ， 写 些 什 么 内 。 示 ) 、 芯 片 制造 领域 的 蚀刻 机 等 一 系列 加 工 制造 机 
容 ! 汉字 到 底 懂 不 懂 ， 一 样 肤色 和 面孔 ! 跨越 黄河 。 器 ， 都 离 不 开 计算 机 。 如 图 11-2 所 示 为 数控 机 床 架构 
东 ， 登 上 泰山 顶峰 ! 我 把 天 地 拆 封 ， 将 长 江水 掏 空 ， 。 示意 图 。 其 基本 上 是 采用 一 部 总 控 计 算 机 来 运行 总 控 
а хаса» 程序 ， 然 后 通过 总 线 适配器 将 1/O 指 令 传达 到 对 应 的 


图 11-1 数控 机 床 


PC-based 


GA (Main Station M-04P! 
бе (Extension Module) (Remote Extension Module) (Puso Output мове) 


у 
ве» | ACE з 9999 „+ 
e 


$ | 
Linear Motor © AI АО АМАО 4 
DUDo Di/DO 
E ng Motor 


11-2 数控 机 床 架构 示意 图 


运动 控制 模块 上 ， 运 动 控制 模块 将 指令 解析 为 控制 机 
床 的 机 械 、 液 压 、 气 动 等 各 种 物理 部 件 行为 的 电流 、 
电压 等 模拟 信号 ， 从 而 控制 机 床 对 器 件 进行 加 工 。 这 
些 控制 包括 主轴 运动 部 件 的 变速 、 换 向 和 启 停 指令 、 
刀具 的 选择 和 交换 指令 、 冷 却 和 润滑 装置 的 启 停 、 工 
件 和 机 床 部 件 的 松 开 和 夹 紧 、 分 度 工作 台 的 转 位 分 度 
等 开关 辅助 动作 。 

总 控 计算 机 可 以 采用 开放 式 的 PC/ 服 务 器 ， 总 线 
适配器 可 以 采用 PCIE 接 口 的 HBA，HBA 后 端 可 以 采 
用 不 同方 式 与 机 床 的 其 他 控制 子 模块 相连 ， 比 如 串 
口 、 以 太 网 等 。 子 控制 模块 中 经 常 使 用 CPLD、FPGA 
等 可 编程 逻辑 器 件 来 实现 对 外 部 组 件 的 控制 ， 以 及 接 
收 外 部 组 件 的 反馈 信号 并 处 理 。 

至 于 机 器 人 ， 或 者 说 人 形 的 机 器 ， 其 本 质 与 数 
控 机 床 一 样 。 比 如 流水 线 上 的 各 种 机 械 手 (如 图 
11-3 所 示 ) 等 。 而 无 人 驾驶 汽车 则 是 使 用 可 以 智能 


分 析 路 况 的 带 有 人 工 智 能 程序 的 计算 机 来 控制 的 
汽车 。 


在 软件 方面 ， 工 业 制造 领域 经 常 使 用 比如 
AutoCAD、MAILAB 等 计算 机 辅助 工程 设计 软件 。 这 
其 中 有 些 软件 需要 大 量 的 算 力 ， 比 如 计算 工程 力学 应 
力 、 撞 击 模拟 等 计算 过 程 ， 有 些 甚至 需要 计算 机 集群 / 
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超级 计算 机 来 帮忙 ， 近 年 来 兴起 的 基于 GPU 的 通用 计 
算 则 提供 了 更 加 便捷 、 低 成 本 的 方案 选择 。 

现代 的 工业 控制 电子 系统 多 数 采用 x86 开 放 式 系 
统 ， 比 如 赛 扬 J1900 级 别 的 CPU， 也 有 一 些 使 用 Atom 
平台 ， 很 多 新 一 点 儿 的 产品 也 有 使 用 Apollo Lake、 
Sky Lake 平 台 CPU。 


说 到 坦克 导弹 火箭 卫星 ， 其 内 部 也 采用 计算 机 控 
制 。 不 过 对 于 这 些 特 殊 场 景 ， 对 其 中 的 计算 机 部 件 有 
特殊 要 求 ， 比 如 火箭 、 卫 星 、 洲 际 弹道 导弹 等 需要 抗 
辐 照 的 器 件 。 由 于 外 太空 的 电离 辐射 较 强 ， 高 能 粒子 
流 会 严重 影响 电路 的 可 靠 性 。 如 图 11-4 所 示 为 一 些 老 
式 导 弹 中 的 控制 电路 。 

导弹 在 飞行 过 程 中 需要 对 各 种 环境 信息 做 采集 然 
后 分 析 ， 并 将 分 析 结 果 反 馈 到 各 个 组 件 ， 比 如 发 动机 
等 ， 以 及 将 必要 信息 传 回 地 面 站 。 这 就 需要 较 强 算 力 
的 芯片 ， 比 如 FGPA 等 。 而 在 20 世 纪 早 期 ， 那 时 的 导 
弹 内 部 只 能 使 用 大 量 分 立 器 件 来 搭建 计算 机 ， 如 
图 11-4 右 下 角 所 示 的 部 分 为 20 世 纪 60 年 代 的 某 导 弹 内 
部 某 处 ， 多 张 独立 电路 板 挂 接 到 总 线 上 。 

如 图 11-5 所 示 为 某 最 新 式 战术 巡航 导弹 的 残骸 ， 
可 以 看 出 其 内 部 采用 了 大 量 的 FPGA/ASIC (无 法 判 
定 ) ， 证 明 该 导弹 有 相当 的 数据 现场 分 析 能 力 。 这 些 
残骸 被 对 手 获取 到 之 后 ， 可 能 会 采用 各 种 方法 进行 研 
究 ， 比 如 将 ASIC 芯 片 一 层 层 打磨 露出 导线 层 ， 然 后 
重 构 整 个 芯片 板 图， 然后 进行 逻辑 猜 解 从 而 获知 其 功 
能 、 目 的 。 

如 图 11-6 所 示 为 某 雷达 预警 系统 内 部 部 分 模块 拆 
解 图 。 

再 看 看 战斗 机 。 战 机 上 一 般 会 搭载 一 个 小 型 机 
柜 ， 机 柜 内 采用 带 有 加 固 处 理 的 统一 背 板 和 模 位 ， 插 
有 服务 器 、 存 储 系统 、 专 用 设备 等 各 类 子 模块 。 如 图 
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11-7 一 图 11-9 所 示 为 某 战机 的 航空 电子 系统 САЊА 
统 ) 架构 示意 图 。 

军用 和 航空 航天 领域 的 控制 系统 中 存在 大 量 比 
例 的 模拟 电子 系统 ， 而 数字 计算 机 系统 所 采用 的 总 
控 芯 片 一 般 都 是 比较 老 旧 的 型 号 ， 其 性 能 低 于 同时 
期 商用 级 处 理 器 十 几 倍 甚至 几 十 倍 ， 甚 至 远 低 于 手 
机 CPU 的 性 能 。 但 这 并 没有 什么 可 令 人 惊讶 的 ， 因 
为 航 电 系统 中 的 主要 算 力 被 分 摊 到 了 各 个 子 模块 
中 ， 比 如 处 理 雷达 信号 的 DSP/FPGA、 控 制 整 流 日 移 
动 的 反馈 控制 系统 (采用 模拟 电子 电路 控制 ) 等 
它们 平时 各 自 为 政 ， 总 控 CPU 部 分 只 是 负责 下 发 各 
种 指令 、 全 局 协调 。 这 就 像 在 商用 计算 机 中 的 CPU 
和 以 太 网 卡 的 关系 ， 以 太 网 底层 编码 不 需要 CPU 来 
计算 。 

另 一 个 原因 是 ， 工 业 类 产品 研发 周期 长 ， 系 统 耦 
合 紧 ， 对 硬件 有 特殊 要 求 〈 比 如 抗 辐 照 等 ) 。 如 果 频 
繁 升级 则 软件 也 需要 跟着 适 配 ， 包 括 操作 系统 、 应 用 
可 能 都 得 改 ， 所 以 更 新 换代 的 惰性 也 就 非常 大 。 加 上 
不 同 代 战机 的 性 能 很 大 一 部 分 体现 在 外 部 边缘 组 件 的 


升级 换代 ， 而 总 控 部 分 只 是 负责 控制 ， 换 代 缓 慢 也 不 
是 大 问题 。 稳 定 才 是 第 一 要 素 。 

某 战 机 先后 用 过 Intel 的 i960、IBM 的 PowerPC 
603 等 CPU 作 为 主 控 。 战 机 图 形 处 理 器 采用 NVIDIA 
Geforce2 Go。 某 新 式 战机 的 算 力 有 了 提升 ， 使 用 了 
4 片 PowerPC G4，GPU 采 用 的 是 NVIDIA Geforce 2. 
E35 的 座舱 全 景 显示 子 系统 则 采用 LynxOS-178 实 时 操 
作 系 统 。 其 他 一 些 ROTS 比 如 hhC/OS-II 也 在 军工 产品 
中 有 应 用 。 
好 奇 号 火星 车 采用 了 IBM PowerPC 750, 256КВ 
EEPROM，256MB DRAM，2GB 的 Flash 存 储 器 。 


企业 级 计算 机 系统 市 场 是 一 个 比较 开放 的 、 标 准 
化 /兼容 性 很 高 的 、 充 满 竞争 的 市 场 。 在 这 个 市 场 生态 
圈 中 主要 有 下 面 几 个 角色 : 半导体 制造 工厂 、 半 导体 
电路 设计 商 、 板 卡 设计 制造 商 、 整 机 设计 商 、 整 机 制 
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造 商 、 整 机 制造 设计 商 、 软 件 开发 商 、 系 统 集成 商 、 
最 终 用 户 。 

这 个 生态 从 上 游 到 下 游 的 运行 流程 为 : 半导体 
电路 设计 商 设 计 出 对 应 的 芯片 ， 以 版 图 的 形式 送 交 
半导体 制造 工厂 排队 等 待 制造 ， 芯 片 出 厂 后 ， 板 卡 
(各 种 HBA 卡 、 转 接 卡 、 主 板 等 ) 设计 制造 商 采 购 
芯片 ， 送 交 板 卡 制造 工厂 制 板 加 工 焊接 ， 出 厂 。 整 
机 设计 制造 商 采 购 板 卡 、 机 箱 、 电 源 等 组 装 成 整 机 
出 厂 。 大 大 小 小 的 系统 集成 商 直 接 面 对 最 终 用 户 ， 
它们 为 用 户 设计 好 IT 系统 架构 、 方 案 ， 采 购 对 应 厂 
商 的 各 种 产品 ， 软 件 + 硬件 ， 然 后 负责 为 用 户 提供 售 
前 评估 咨询 、 售 中 流程 管理 及 安装 部 署 上 线 、 售 后 
维护 等 服务 。 

如 图 11-10 所 示 为 双 路 服务 器 架构 的 演变 〈 未 包括 
最 早期 的 那 种 连 内 存 都 连接 到 北桥 的 架构 ) ， 这 个 过 
程 在 本 书 之 前 章节 中 也 都 有 所 提 及 。 随 着 CPU 集成 度 
的 提高 ， 目 前 主板 上 基本 只 有 CPU、IO 桥 两 种 主要 芯 
片 了 。 在 此 建议 粗略 回顾 一 下 第 7 章 中 的 PCIE 和 SAS 
方面 的 内 容 。 

本 节 冬 瓜 哥 将 展示 企业 数据 中 心中 的 主要 关键 
IT 设备 的 架构 及 实物 ， 初 入 IT 行业 的 朋友 只 要 经 常 看 
一 下 这 些 图 片 和 架构 ， 就 可 以 做 到 胸有成竹 。 当 你 真 
正 走 入 企业 数据 中 心机 房 之 后 ， 能 够 一 眼 辨识 出 各 种 
设备 ， 并 且 迅速 在 脑海 中 构建 出 该 设备 内 部 的 架构 、 
功能 ， 以 及 与 其 他 设备 的 连接 方式 ， 形 成 一 个 全 局 
框架 。 


提示 > 

2008 年 ， 冬 瓜 哥 面试 一 家 存储 系统 厂商 ， 面 试 
官 Andreas 先 生 是 位 严谨 的 德国 人 人， 但 是 会 说 一 口 流 
利 的 中 文 。 他 在 电话 中 间 了 我 各 种 技术 问题 ， 我 者 
对 答 如 流 。 虽 然 那 时 候 我 并 没有 见 过 任何 存储 系统 
设备 ， 但 是 我 已 经 饱 览 了 各 种 相关 的 文档 ， 已 经 是 
胸有成竹 。 


11.2.1 芯片 与 板 卡 


本 节 我 们 就 来 看 看 各 种 企业 级 计算 机 系统 中 常用 
的 芯片 和 板 卡 。 由 于 CPU、 桥 片 在 本 书 之 前 章节 中 已 
经 介绍 过 了 ， 这 里 不 再 介绍 。 

图 11-11 中 的 RAID/HBA， 指 的 是 带 RAID 和 不 带 
RAID 功 能 的 SAS/SATA 控 制 器 。 这 个 控制 器 可 以 直接 
被 焊接 到 主板 上 ， 与 CPU 之 间 采 用 PCIE 总 线 相连 ; 
也 可 以 先 将 其 制作 到 一 个 PCIE 卡 上 ， 再 将 其 插 到 主 
板 上 的 PCIE 插 槽 中 。PCIE 卡 有 多 种 形态 ， 一 种 是 标 
准 卡 〈 有 全 高 全 长 、 半 高 半 长 等 规格 ， 目 前 基本 都 是 
半 高 半 长 规格 ) ， 另 一 种 则 是 非 标准 卡 或 者 定制 化 卡 
(这 类 卡 的 形态 各 式 各 样 ， 但 是 依然 使 用 PCIE 协 议 ， 
只 是 物理 接口 形态 上 有 变化 ) 。 有 种 非 标准 卡 被 称 为 
Mezzanine Card (夹层 卡 ) ， 其 目的 是 为 了 节约 计算 
机 机 箱 内 的 空间 ， 其 插 槽 方向 垂直 而 不 是 平行 于 板 卡 
表面 ， 这 样 这 张 卡 就 可 以 与 主板 平行 紧 贴 在 主板 表 
面 了 。 


图 11-10 


企业 级 计算 机 系统 典型 架构 变迁 过 程 


图 11-11 标准 接口 的 SAS RAID 和 HBA 卡 、 夹 层 HBA 卡 


从 第 7 章 中 图 7-21 左 侧 所 示 的 计算 机 内 部 结构 ， 
可 以 看 到 企业 级 计算 机 的 硬盘 都 是 插 到 一 块 背 板 
上 ， 再 使 用 线 缆 连接 到 SAS HBA/RADI 控 制 器 上 
的 。 有 时 候 需要 连接 较 多 硬盘 ，SAS 控 制 器 的 直 连 
接口 数量 不 够 ， 那 就 需要 采用 一 个 SAS Switch СЕ 
界 不 叫 Switch， 而 叫 SAS Expander) 芯片 来 扩充 接 
口 数 量 。 这 个 芯片 可 以 被 放置 到 背 板 上 ， 硬 盘 信 
号 先 连 接 到 SAS Expander 上 ， 然 后 从 其 上 行 口 连 
接 到 SAS 控 制 器 上 。 如 果 背 板 空间 比较 小 ， 容 不 下 
SAS Expander 芯 片 的 位 置 ， 为 了 灵活 性 考虑 ， 则 
Microsemi 公 司 推出 了 SAS Expander 卡 ， 其 为 一 块 
PCIE 卡 ， 但 是 只 使 用 PCIE 接 口 来 供电 ， 不 传递 信 
号 。SAS 接 口 被 从 SAS Expander 上 导出 到 连接 器 ， 
这 样 ， 背 板 的 上 行 信号 、SAS 控 制 器 的 信号 都 使 用 
线 缆 连 接 到 SAS Expander 卡 ， 从 而 形成 一 个 SAS 交 
换 网 络 ， 让 SAS 控 制 器 端 识别 到 所 有 硬盘 。 图 11-12 
右 下 角 所 示 为 Microsemi 公 司 的 SAS Expander 卡 。 图 
中 左下 角 所 示 为 DELLEMC R940 四 路 服务 器 背 板 、 
Microsemi 公 司 的 Adaptec 82885T SAS Expander 卡 的 
结构 图 以 及 使 用 场景 。 


== SAS 连接 器 在 对 面 
与 expander 卡 对 连 
4 无 Expander 的 肖 板 ан 
іш 
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一 些 企 业 级 计算 机 中 还 经 常用 到 另 一 种 芯 
片 : PCIE Switch。 由 于 CPU 提供 的 PCIE 通 道 数 
量 不 够 ， 犹 如 SAS 一 样 ， 也 需要 一 个 Switch 芯片 
来 扩充 PCIE 通 道 数量 。 如 图 11-13 所 示 为 三 台 不 
同 设计 的 服务 器 ， 可 以 看 到 其 中 插 满 了 显卡 ， 它 
们 属于 GPU Server。 比 如 左 侧 那 台 插 了 16 块 X16 
PCIE 接 口 的 显卡 ， 双 路 CPU 输 出 的 PCIE 通 道 数量 
不 够 ， 于 是 可 以 看 到 在 其 中 板 (Middle Plane) 
上 白色 散热 片 下 面 就 是 PCIE Switch 芯片 。 至 
于 PCIE Switch 内 部 架构 ， 我 们 已 经 在 第 7 章 的 
7.4.1.9 节 中 介绍 过 了 。 

企业 级 计算 机 系统 中 还 包含 一 些 芯片 ， 比 如 
BMC、 上 声音 处 理 芯 片 / 卡 、GPU/ 显 卡 、 机 械 硬盘 控制 
器 芯片 、 固 态 硬盘 控制 器 芯片 等 ， 这 些 芯 片 在 本 书 之 
前 章节 中 均 有 相应 介绍 。 


目前 ， 市 面 上 使 用 较 广 的 SAS 控 制 器 / 卡 、SAS 
RAID 控 制 器 / 卡 、SAS Expander 芯 片 、PCIE Switch 
芯片 、 企 业 级 NVMe 协 议 的 Flash 控 制 器 ， 都 产 自 
PMC-Sierra 公 司 ( 后 被 Microsemi 公 司 收购 ) o 


Figure 1 Adaptec® 12Gb SA S Expander Card with Internal Connectors to Passive Backplanes 


图 11-13 PCIE Switch 在 企业 级 计算 机 中 的 应 用 


ES 大话 计 算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


11.2.2 ”服务 器 11.2.2.1 BREZE 


塔 式 服务 器 的 机 箱 结构 和 个 人 机 箱 非常 类 似 〈 如 
11-15975) ， 但 是 普遍 比 PC 机 箱 体 积 更 大 ， 因 为 
服务 器 的 扩展 性 更 好 ， 以 及 对 散热 的 要 求 等 ， 决 定 了 
其 需要 占用 更 大 的 空间 〈 如 图 11-16 所 示 ) 。 

塔 式 服务 器 一 般 适 用 于 超 小 规模 企业 或 者 中 小 企 
业 场 景 ， 在 这 些 场景 下 ， 用 户 仅 需要 一 台 或 者 少数 几 
台 服 务 器 ， 并 且 短 期 内 不 会 继续 采购 更 多 服务 器 ， 那 
么 塔 式 服务 器 就 是 比较 适合 计算 机 的 选择 。 

值得 一 提 的 是 ， 塔 式 服务 器 虽然 外 观 像 个 人 计算 
机 ， 但 是 这 绝对 不 表示 其 性 能 也 相对 其 他 类 型 服务 器 
低 ， 相 反 ， 有 些 塔 式 服务 器 型 号 性 能 非常 高 ， 因 为 其 


所 谓 服务 器 ， 就 是 对 外 提供 各 种 服务 (比如 网 
页 服务 器 、 文 件 共享 服务 器 、 数 据 库 服务 器 等 ) 的 企 
业 级 计算 机 ， 其 上 安装 有 相应 的 企业 级 应 用 软件 对 外 
提供 服务 。 对 于 目前 各 种 智能 终端 ， 当 打开 某 个 App 
之 后 ， 该 App 可 能 就 会 连接 到 位 于 互联 网 上 的 某 台 或 
者 多 台 服 务 器 来 登录 认证 ， 获 取 用 户 信息 ， 推 送 内 容 
以 及 获取 手机 本 地 内 容 到 服务 器 端 处 理 。 服 务 器 相 比 
个 人 计算 机 而 言 有 如 下 区 别 : 可 靠 性 更 高 、 扩 展 性 更 
强 、 性 能 更 强 。 

由 于 服务 器 在 上 述 多 个 方面 的 特殊 要 求 ， 所 以 其 外 
观 、 内 部 设计 上 一 眼 就 可 以 与 个 人 计算 机 区 分 开 来 Ош 
图 11-14 所 示 ) 。 从 形态 上 ， 服 务 器 可 以 分 为 下 面 几 种 。 


内 部 空间 大 ， 在 供电 、 散 热 、 扩 展 性 方面 设计 局 限 很 
小 ， 也 就 可 以 使 用 更 高 规格 的 CPU、 内 存 等 部 件 。 


电源 双 宛 余 ， 统 一 散热 ， 高 质量 部 件 ， 部 件 老化 测试 ， 采 用 ECC DDR ВАМ | 单 电源 ,一 般 质量 部 件 ， 采 用 非 ECC DDR RAM 


可 以 支持 CPU、 内 存 、 电 源 模块 、PCIE 卡 、 风 房 、 硬 盘 等 部 件 的 热 播 拔 


提供 多 个 x16 PCIE 插 槽 和 x 多 提供 数 十 个 硬盘 槽 位， 提供 大 量 DDR | 一 般 只 提供 一 个 x16 PCIE 插 模 , Ж-Ғх8. x4APCIERGI, Нар RERO, E 
ВАМ Н 供 少量 DDR БАМ 


性 能 采用 消费 级 CPU ， 比 如 Intel 酷 窒 系 列 ， 一 般 只 配置 单 路 CPU 


外 观 形态 ЧЕЛА, MRE ПН. MUER 多 数 为 塔 式 / 立 式 ， 少 数 DIY 成 特殊 形态 


图 11-14 ”服务 器 与 个 人 计算 机 的 对 比 


PowerEdge T430 PowerEdge T630 PowerEdge T440 


图 11-15 DELLEMC 公 司 的 典型 塔 式 服务 器 产品 


PowerEdge T640 


图 11-16 DELLEMC 公 司 的 T630 塔 式 服务 器 外 观 和 内 部 图 


11.2.2.2 ”机 架 式 服务 器 


对 于 那些 需要 大 量 服务 器 的 场景 ， 比 如 大 型 企 
业 数 据 中心 、 云 计算 数据 中 心 、 互 联网 企业 后 端 数 
据 中 心 等 ， 需 要 在 有 限 的 机 房 空 间 中 容纳 尽 可 能 多 
的 服务 器 ， 此 时 塔 式 服务 器 由 于 体积 过 大 不 紧凑 ， 
就 不 适合 了 。 于 是 服务 器 设计 制造 厂商 推出 了 机 架 
式 服务 器 。 所 谓 机 架 (Rack) ， 就 是 机 房 内 部 用 于 
容纳 各 种 服务 器 、 存 储 、 网 络 设备 的 金属 框架 ， 如 
图 11-17 所 示 。 

标准 机 架 宽 19 英 寸 ， 高 度 为 42U (U 即 Unit， 
1U=4.445cm) 。 机 架 服务 器 /网 络 /存储 设备 必须 按照 
这 个 标准 来 设计 。 在 设备 四 角 会 有 挂 耳 ， 利 用 螺丝 固 
定 在 机 架 四 周 的 空洞 上 。 机 架设 备 可 以 有 各 种 高 度 ， 
比如 1U、2U、4U 高 度 最 为 普遍 ， 有 些 设备 也 可 以 是 
6U、8U 等 高 度 。 利 用 这 种 标准 化 的 方式 ， 可 以 让 数 
据 中 心 内 服务 器 密度 更 高 ， 管 理 也 方便 。 但 是 对 机 
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架 、 设 备 的 质量 要 求 很 高 ， 各 种 结构 件 以 及 机 房 地 板 
需要 有 较 强 的 承重 能 力 。 

毫 无 疑问 ， 机 架 服 务 器 内 部 的 空间 会 变 得 非常 狭 
小 紧凑 。 如 图 11-18 所 示 为 DELLEMC 公 司 的 R740 机 架 
式 服务 器 实物 图 ， 其 为 一 款 2U 高 度 2 路 CPU 的 服务 器 。 

机 架 服务 器 普遍 都 是 硬盘 位 于 机 器 前 方 ( 这 样 便于 
硬盘 热 插 拔 维护 ) ， 各 种 IO 接口 、PCIE 适 配 卡 则 位 于 
机 器 后 方 〈 平 时 很 少 会 变更 ) 。 为 了 便于 热 插 拔 硬盘 ， 
需要 先 将 硬盘 固定 在 托 架 上 ， 再 将 托 架 + 硬盘 一 同 插入 
服务 器 背 板 上 。 如 图 11-19 所 示 为 硬盘 托 架 示意 图 。 

DELLEMC 公 司 是 目前 全 球 最 顶级 的 企业 级 服务 器 、 
存储 设备 设计 和 制造 商 ， 其 在 该 领域 积累 了 多 年 的 经 
验 ， 在 用 户 体验 方面 做 到 了 极致 (如 图 11-20 所 示 〉。 

下 面 简 要 介绍 一 下 DELLEMC 公 司 的 R940 型 
4 路 服务 器 内 部 结构 。 如 图 11-21 所 示 为 其 内 部 俯 
视图 。 


19 英 寸 标准 机 架 


图 11-19 ”硬盘 托 架 示意 图 
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PowerEdge R230 PowerEdge R330 


ee еасслальаан 


PowerEdge R430 PowerEdge R440 


PowerEdge R740 PowerEdge R740xd 


PowerEdge R830 PowerEdge R940 


pm ESSE 


PowerEdge R6415 PowerEdge R7415 


PowerEdge R530 PowerEdge R540 


PowerEdge R7425 PowerEdge C4130 


PowerEdge R930 


图 11-20 DELLEMC 公 司 的 部 分 机 架 式 服务 器 产品 一 览 


图 11-21 


R940 内 部 采用 了 双 层 主板 设计 ， 底 层 主板 包含 两 
个 CPU 插座 ， 若 干 内 存 插 槽 ，IO 桥 芯片 以 及 PCIE 插 
槽 ， 上 层 主板 只 包含 两 个 CPU 插座 和 若干 内 存 插 模 。 
如 图 11-22 所 示 ， 双 层 主板 之 间 提 供 特殊 的 QPI 网 络 连 
接 器 ， 使 用 特殊 线 缆 相 互 连 接 ， 从 而 将 两 个 2 路 CPU 
的 主板 连接 成 一 个 4 路 CPU 的 系统 。 

不 同 厂商 的 服务 器 最 大 的 区 别 在 于 可 维护 性 设 
计 上 。DELLEMC 在 可 维护 性 方面 做 的 比较 到 位 ， 比 


hard drive/SSD backplane with expander board 
heat sink (CPU1) 

network daughter card riser 

heat sink (CPU2) 

NVDIMM-N battery 

cooling fan (8) 

storage controller card (SAS Raid/HBA Card) 
system board 

memory module (24) 


MO CE 


10 information tag 
11 /О Bridge 

12 PICE Slots 

13 SAS Expander Card 


14 SAS Cables 15 QPI Cable Connectors 


DELLEMC 公 司 R940 服 务 器 内 部 俯视 图 


如 上 层 主板 可 以 很 容易 地 被 掀 开 、 合 上 。 如 图 11-23 
所 示 为 R940 服 务 器 其 他 部 分 模块 实物 图 ， 包 括 : SAS 
Expander 卡 + 背 板 、PCIE 插 槽 Riser 转 接 支架 、 电 源 模 
块 、 风 扇 模块 等 。 

机 架 式 服务 器 中 普遍 使 用 了 Riser 转 接 支 架 。 机 架 
服务 器 的 高 度 一 般 为 1U/2U/4U (少数 为 8U， 比 如 一 
些 8 路 高 端 服务 器 ) 。 由 于 标准 形态 PCIE 适 配 卡 的 高 
度 高 于 4U， 无 法 竖 插 在 主板 上 ， 所 以 厂商 一 般 提供 


图 11-22 DELLEMC R940 服 务 器 双 层 主板 


Riser 支 架 将 信号 从 主板 的 特殊 PCIE 插 槽 〈 一 般 为 非 
标准 插 模 ， 供 电 标准 不 同 ， 直 接 插 PCIE 卡 可 能 会 被 烧 
duo 转 接 成 一 个 或 者 多 个 横向 的 标准 PCIE 插 槽 ， 这 样 
PCIE 卡 就 可 以 扁平 地 (与 主板 平行 方向 ) 插 到 Riser 支 
架 中 的 PCB 板 上 。 

一 些 高 端的 服务 器 也 这 样 处 理 内 存 ， 从 而 提升 密 
度 。 如 图 11-24 所 示 为 DELLEMC R930 服 务 器 中 的 内 
存 Riser 模 块 。 


e : 7 7 „= 
图 11-24 DELLEMC R930 服 务 器 中 的 内 存 Riser 


在 国内 ， 浪 潮 研制 出 了 中 国 第 一 款 基 于 Intel 平 台 
的 8 路 服务 器 ， 长 期 以 来 一 直 引 领 着 8 路 服务 器 的 技 
术 发 展 趋势 。2010 年 ， 浪 潮 推出 了 中 国 第 一 款 8 路 服 
务 器 天 梭 TS850， 实 现 了 架构 、 结 构 、 原 理 、PCB、 
BIOS 等 8 个 层面 的 自主 化 研制 。 

浪潮 8 路 服务 器 采用 了 基于 NUMA 的 物理 双 分 区 
体系 结构 、 时 序 控制 、 分 区 逻辑 控制 、 监 控 管 理 等 
主机 技术 ， 在 短 短 几 年 内 ， 从 天 梭 TS850， 到 天 梭 
TS860， 到 天 梭 TS860G3， 再 到 TS860M5 〈 如 图 11-25 
BUR) ， 完 成 了 4 代 产 品 的 迭代 更 替 ， 整 体 水 平 已 经 
位 居 业 界 前 列 。 


11-23 R940 服务 器 的 其 他 部 分 模 
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图 11-25 ”浪潮 新 一 代 八 路 服务 器 TS860M5 


11.2.2.3 刀片 服务 器 


刀片 服务 器 (Blade Server). 是 比 机 架 服务 器 设计 
更 紧凑 ， 能 够 进一步 提升 部 署 密度 的 服务 器 形态 。 对 
于 塔 式 、 机 架 式 服务 器 来 说 ， 每 一 台 机 器 内 部 都 有 独 
立 的 电源 模块 、 风 扇 模块 、 硬 盘 插 槽 、PCIE 插 模 、 网 
F, SAS RAID/HBA 卡 。 而 如 果 想 进一步 提升 密度 ， 
显然 ， 可 以 将 通用 的 模块 拿 出 来 ， 比 如 用 两 个 互 为 元 
余 的 大 功率 电源 模块 、 大 功率 风扇 模块 对 多 台 服 务 器 
一 起 供电 、 散 热 ， 可 以 省 出 很 大 一 部 分 空间 ， 而 如 果 
将 服务 器 内 部 的 硬盘 插 槽 也 统一 集中 放置 ， 再 通过 中 
板 或 者 背 板 将 这 些 插 槽 灵活 地 连接 到 某 个 服务 器 的 
SAS RAID/HBA 卡 输出 的 SAS 连 接 器 上 ， 又 可 以 节省 
一 部 分 空间 。 而 如 果 将 服务 器 上 的 网 络 接 口 统一 导向 
到 集中 的 接口 面板 上 ， 则 又 节省 了 一 点 点 儿 空间 。 如 
图 11-26 所 示 为 DELLEMC M1000e 刀 片 Chasis 的 前 视图 
和 后 视图 。 

这 样 ， 服 务 器 内 部 就 可 以 更 加 紧凑 ， 每 一 点 
儿 空 间 都 是 精打细算 ， 整 个 服务 器 体积 也 就 可 以 做 
的 比较 小 了 。 在 这 种 设计 模式 下 ， 每 个 服务 器 被 称 
为 一 个 刀片 (Blade) ， 或 者 结 点 (Node) 、 模 块 
(Module) 。 而 多 个 刀片 服务 器 必须 被 插入 〔 可 热 
MR) 到 一 个 通常 为 6U/8U 高 度 的 机 箱 (Chasis, EK 
者 带 有 商业 色彩 的 名 称 Blade Center) 内 部 。 电 源 、 
风扇 、 网 络 接口 、 远 程 管理 模块 等 子 模块 也 都 插入 到 
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机 箱 上 。 所 有 服务 器 、 外 围 模块 之 间 通 过 特殊 的 连 如 图 11-29 和 图 11-30 所 示 为 DELLEMC M1000e 
接 器 ， 通 过 机 箱 内 部 的 中 板 相 互 连 接 。 如 图 11-27 和 刀片 Chasis 中 板 实物 图 和 连接 拓扑 图 ， 以 及 连接 器 实 
11-28 所 示 为 DELLEMC M1000e 刀 片 Chasis 实 物 图 。 物 图 。 


yo 
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如 图 11-31 所 示 为 DELLEMC M840、M630 刀 片 服 
务 器 结 点 以 及 CMC (Chasis Management Controller) 
集中 控制 模块 。 还 有 其 他 诸多 型 号 和 配置 规格 的 刀片 
服务 器 结 点 ， 在 这 里 就 不 多 介绍 了 。 这 些 模块 都 可 以 
插入 到 M1000e 刀 片 机 箱 中 。 

如 图 11-32 所 示 为 DELLEMC M1000e 刀 片 Chasis 
的 还 VM (Integrated КУМ) 和 CMC 模 块 。KVM 表 示 
Keyboard, Video, Mouse. ХТ HERH, КУМ 
块 会 将 所 有 刀片 服务 器 的 键盘 、 鼠 标 和 VGA 显 示 接 口 
的 信号 汇总 ， 对 外 只 提供 两 个 USB 接 口 分 别 接 鼠 标 和 
键盘 ， 以 及 一 个 VGA 接 口 连 接 一 台 显示 器 。 通 过 其 他 
控制 渠道 比如 CMC 来 切换 多 路 KVM 信 号 输出 到 VM 


模块 接口 上 ， 这 样 只 需要 使 用 一 套 键盘 鼠标 显示 器 就 


可 以 轮流 操作 多 台 服 务 器 的 GUIT 了 。 
CMC 模 块 用 于 对 整个 Chasis 以 及 刀 


片 服务 器 等 模 


块 进行 集中 控制 管理 ， 包 括 配 置 各 种 参数 、 固 件 升 


级 、 日 志 收 集 等 功能 。 其 后 端 采用 各 入 
块 相连 ， 比 如 i2c、 以 太 网 、UART 串 口 
上 则 采用 BMC 控 制 器 与 CMC 集 中 控制 
收 后 者 下 发 的 各 种 指令 和 数据 。 


接口 与 各 个 模 
等 ; 各 个 模块 
模块 相连 ， 接 


如 图 11-33 所 示 为 DELLEMC M1000e 机 箱 支 持 的 


各 种 IO 模块 ， 这 些 模块 与 刀片 服务 器 
意图 如 图 11-33 右 侧 所 示 。 这 些 模块 有 的 
有 的 则 本 质 上 是 一 个 交换 机 ， 在 第 6 章 


结 点 的 连接 示 
是 直通 模块 ， 
的 6.6 节 中 有 更 
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详细 的 介绍 。 

DELLEMC 在 2018 年 第 4 季度 推出 了 全 新 的 
PowerEdge MX7000 系 列 刀 片 服务 器 机 箱 以 及 各 种 刀 
片 模块 ， 采 用 了 当时 业界 的 前 沿 技术 ， 实 现 了 更 灵活 
的 资源 池 化 。 


11.2.2.4 模块 化 服务 器 


刀片 服务 器 在 密度 和 日 常 维 护 上 有 先天 优势 ， 
但 是 其 初期 投资 有 点 儿 高 ， 不 管 配置 多 少 个 结 点 ， 整 
个 Chasis 都 要 首先 购置 上 。 于 是 近年 来 各 大 服务 器 厂 
商 陆续 推出 了 小 型 的 模块 化 服务 器 ， 其 本 质 上 与 刀片 
服务 器 类 似 ， 但 是 做 了 一 些 精简 。 比 如 高 度 一 般 在 
2U/4U， 最 大 可 插入 刀片 数量 降低 、IO 接 口 数 量 降 
低 等 。 

DELLEMC Poweredge FX2 是 一 款 2U 模 块 化 服务 器 
平台 框架 ， 其 采用 一 个 2U 的 Chasis 机 箱 ， 最 大 可 以 容 
All: 两 个 1U Server Sled、 或 者 一 个 1U Server Sled+ 两 个 
1U 半 宽 存储 Sled、 或 者 一 个 1U 半 宽 Server Sled+ 三 个 1U 
半 宽 存储 Sled、 或 者 4 个 1U 半 宽 Server Sled、 或 者 两 个 1U 
半 宽 Server Sled+ 两 个 1U 半 宽 存 储 Sled、 或 者 三 个 1U 半 宽 
Server Sledt 一 个 1U 半 宽 存 储 Sled、 或 者 8 个 1U 四 分 之 一 宽 
Server Sled。 可 实现 多 种 灵活 组 合 。 如 图 11-34 和 图 11-35 所 
示 为 DELLEMC Poweredge FX2 模 块 化 服务 器 前 视图 和 后 
视图 。 

FX2 机 箱 背 面 有 8 个 PCIE 模 位， 这 8 个 PCIE 
槽 位 可 以 被 灵活 地 分 配给 机 箱 正 面 的 各 种 组 合 的 
Server Sled。 这 得 益 于 PCIE Switch 以 及 Partition 
功能 的 使 用 〈 详 见 第 7 章 PCIE 部 分 ) ， 如 图 11-36 
所 示 。 

如 图 11-37 和 图 11-38 所 示 为 DELLEMC Poweredge 
FX2 服 务 器 部 分 模块 实物 图 。 在 可 维护 性 方面 ，FX2 
服务 器 机 箱 内 部 的 PCIE Switch 模 块 是 可 以 被 方便 地 插 


在 国内 ， 独 立 的 软件 产品 比较 难以 获得 用 户 的 
认可 ， 更 多 用 户 对 花 钱 购买 一 个 注册 码 或 者 License 
文件 不 以 为 然 ， 他 们 更 愿意 购买 软 硬 一 体 的 设备 ， 
比如 把 备份 和 容 灾 管 理 软件 安装 到 定制 化 的 服务 器 
中 形成 的 备份 容 灾 一 体 机 ， 把 数据 库 安装 到 服务 器 
中 形成 的 数据 库 一 体 机 ， 将 GPU、 高 速 网 卡 、 服 务 
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器 、 配 套 的 AI 软件 预 装 到 系统 中 形成 AI 一 体 机 等 。 

很 多 独立 软件 供应 商 (Independent Software 
Vendor, ISV) 或 者 系统 集成 商 (System Integrator, 
51) 会 将 软件 预 装 到 硬件 中 ， 并 做 充分 的 集成 测试 、 
稳定 性 测试 和 功能 测试 ， 然 后 软 硬 打包 销售 ， 避 免 用 
户 自己 安装 软件 到 不 同 版 本 的 OS 或 者 硬件 服务 器 上 而 
导致 的 各 种 兼容 性 问题 。 软 硬 一 体 机 更 多 像 是 基于 开 
放 平台 服务 器 构建 的 半 封 闭 系统 ， 它 对 易 部 署 、 易 维 
护 方面 有 着 更 高 的 要 求 ， 各 方面 规格 也 是 为 对 应 软件 
系统 量 身 定制 的 ， 可 以 省 去 ISV 在 硬件 适 配 方面 的 额 
外 的 不 必要 工作 量 ， 在 软 硬 集成 前 期 就 可 以 有 针对 性 
地 完成 性 能 的 匹配 和 调 优 。 

纵 观 目前 市 场 上 的 主流 产品 ， 要 么 灵活 性 不 
够 ， 要 么 扩展 性 不 佳 ， 多 数 ISV 在 集成 系统 时 基本 就 
是 采用 多 台 传 统 机 架 式 服务 器 的 简单 堆 登 ， 单 独 各 
自 管理 ， 效 率 低下 。 而 采用 刀片 服务 器 ， 成 本 又 过 
高 ; 采用 小 型 模块 化 服务 器 则 扩展 性 不 够 。 所 以 ， 
ISV、 私 有 云 等 系统 迫切 需要 一 款 能 够 拥有 广泛 的 
场景 适 配 、 灵 活 的 扩展 性 、 易 部 署 维护 的 服务 器 
产品 。 

而 这 种 强 定制 化 细 分 市 场 场景 ， 正 是 ODM 制 造 
商 所 擅长 的 。ODM 制 造 商 长 期 隐藏 在 各 大 OEM 品 牌 
商 后 面 ， 一 般 来 讲 ， 国 内 ODM 厂 商 的 结构 和 工程 能 
力 、 自 研 主 板 和 全 部 电路 的 能 力 、 配 套 软件 研发 能 力 
都 比较 强 ， 但 是 在 与 用 户 贴近 的 私有 云 、 超 融合 、 
大 数据 、AI 等 用 户 场景 的 理解 方面 ，OEM 品 牌 商 由 
于 长 期 处 于 用 户 一 线 ， 积 累 的 经 验 更 多 。 目 前 ， 各 大 
ODM 制 造 商 普遍 从 后 台 走 向 一 线 ， 直 接 调研 用 户 场 
景 ， 这 方面 的 典型 代表 是 国 完 Сбоох) 最 近 推出 的 
一 款 专门 针对 ISV 和 私有 云 环 境 的 一 体 机 模块 化 服务 
器 ， 如 图 11-39 所 示 。 

该 机 型 为 一 款 4U 高 度 ， 最 高 可 配置 8 个 计算 结 点 
的 超 融合 服务 器 存储 一 体 机 。 其 中 ， 计 算 和 存储 资源 
可 以 灵活 配 比 ， 比 如 可 以 配置 8 个 计算 结 点 ， 每 节 模 
块 本 地 可 配置 4 块 机 械 盘 、 两 块 NVMe SSD+ 两 块 机械 
盘 、 三 块 NVMe SSD 等 配置 ， 也 可 以 配置 4 个 计算 结 
点 ， 每 个 计算 结 点 挂 接 12 块 硬盘 ， 或 者 可 以 配置 两 个 
计算 结 点 ， 每 个 结 点 挂 接 36 块 硬盘 。 各 种 计算 结 点 模 
块 设计 图 如 图 11-40 所 示 。 


M1000e СМС 
图 11-32 DELLEMC M1000e 刀 片 Chasis 的 还 VM 和 CMC 模 块 
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11-37 DELLEMC Poweredge FX2 模 块 化 服务 器 的 PCIE 适 配 卡 连接 器 


图 11-39 国信 超 融合 服务 器 存储 一 体 机 整体 设计 图 


该 产品 基于 Intel Purley 平台 开发 ，4U 机 箱 可 支持 


8 个 计算 结 点 ， 或 4 个 12 盘 位 


位 的 存储 结 点 ， 主 要 应 


的 存储 结 点 ， 或 两 个 36 盘 
在 云 计算 、 大 数据 、 海 量 存 


储 等 应 用 场景 ， 面 向 大 规模 数据 中 心 与 稀缺 资源 数据 


机 箱 内 实现 ， 可 灵活 应 对 
持 混 插 ， 属 于 模块 化 、 一 


中 心 ， 应 用 于 通信 、 金 融 、 
业 市 场 。 计 算 密集 、 均 衡 密集 、 存 储 密集 结 点 在 统一 


高 性 能 、 存 储 及 互联 网 行 


多 种 工作 环境 。 不 同 结 点 支 
体 化 组 合 方案 。 


该 产品 的 核心 竞争 力 就 是 将 对 各 种 应 用 场景 的 调 


研 积累 体现 到 产品 的 结构 
设计 、 整 体 规格 等 方面 。 


设计 、 维 护 设计 、 供 电 散 热 


在 该 产品 的 设计 过 程 中 ， 国 移 也 克服 了 一 系列 难 


点 以 及 各 种 权衡 ， 包 括 : 


密度 与 扩展 性 的 平衡 、 前 置 


维护 与 硬盘 扩展 性 的 矛盾 、 功 耗 与 供电 方面 的 各 种 权 
衡 、 空 间 利用 率 与 散热 的 妥协 、 带 电 维护 与 设备 安装 
的 矛盾 、 重 量 和 结构 的 矛盾 等 。 随 着 对 用 户 场景 的 深 
刻 理 解 并 反映 到 产品 制造 设计 环节 ， 相 信和 包括 国 乌 在 
内 的 ODM 制 造 厂商 能 够 更 迅速 地 推出 更 符合 用 户 需 
求 的 产品 。 

Hifi (Gooxi) 是 国内 知名 的 ODM 设 计 制 造 商 ， 
其 产品 目前 已 经 覆盖 服务 器 管理 软件 、 服 务 器 准 系 
统 、 存 储 控制 器 系统 、 服 务 器 主板 、 服 务 器 机 箱 及 
服务 器 配件 等 十 多 个 系列 ， 服 务 器 系统 年 产量 超过 
100 000 台 ， 已 经 成 为 国内 最 大 的 ODM 制 造 商 。 
鑫 拥有 世界 先进 的 生产 制造 设备 ， 拥 有 6 条 大 型 SMT 
(Surface Mounted Technology， 表 面 贴 装 技术 ) 生 
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产 线 。 如 图 11-41 所 示 为 国 夸 厂房 中 的 各 种 生产 
设备 。 

国 奢 服务 器 准 系统 目前 涵盖 
1U/2U/3U/4U/8U/12U 高 密度 服务 器 和 存储 控制 
器 服务 器 等 多 种 配置 和 型 号 规格 ,能 适 配 不 同 
行业 客户 的 差异 化 应 用 需求 。 与 传统 服务 器 不 
同 ， 无 线 缆 、 模 块 化 设计 是 国 夸 服务 器 的 最 重 
要 的 特色 之 一 。 如 图 11-42 所 示 为 国 夸 针 对 Intel 
Purly 平 台 CPU 推 出 的 “四 子 星 ”模块 化 服务 
器 。 在 2U 高 度 空间 内 ， 最 大 可 插入 4 个 服务 器 结 
点 。 每 个 结 点 内 部 均 采 用 无 线 缆 设 计 ， 结 点 采 
用 中 板 与 机 箱 前 部 的 硬盘 背 板 连接 ， 结 点 中 板 
上 可 以 有 SAS HBA 或 者 SAS RAID 控 制 器 ， 或 者 
PCIE Switch， 这 些 芯片 的 管 脚 会 与 硬盘 背 板 上 
对 应 的 信号 相连 ， 从 而 让 每 个 结 点 识别 到 对 应 
的 SAS/SATA 或 者 NVMe 硬 盘 。 

浪潮 在 小 型 模块 化 服务 器 产品 线 有 非常 丰 
富 的 产品 ， 比 如 2U4 结 点 、2U8 结 点 、4U2 结 
点 、4U4 结 点 和 4U8 结 点 等 不 同 产品 。 浪 潮 在 
2017 年 推出 了 高 密度 模块 化 服务 器 i48， 如 图 
11-43 所 示 。 在 4U 机 箱 内 可 部 署 8 个 计算 型 或 4 
个 均衡 型 结 点 ， 同 时 为 了 满足 不 断 增长 的 海量 
存储 需求 ，i48 还 支持 36 或 72 盘 高 密度 存储 型 结 
点 ， 所 有 类 型 结 点 在 同一 机 箱 内 可 混 插 ， 进 一 
步 拓宽 该 平台 的 场景 覆盖 ， 实 现 数据 中 心 多 场 
景 基础 设施 统一 架构 。 


11.2.2.5 整 机 柜 服务 器 


如 果 将 刀片 服务 器 的 Chasis 扩 大 到 一 整个 
机 柜 的 范围 ， 此 时 称 之 为 整 机 柜 服 务 器 。 整 机 
柜 服 务 器 设计 起 源 自 2011 年 由 Facebook、 英 特 
尔 等 联合 发 起 的 开放 计算 项 目 (Open Compute 
Project, OCP) ， 其 使 命 是 为 实现 可 扩展 的 计 
算 ， 提 供 高 效 的 服务 器 、 存 储 和 数据 中 心 硬件 
设计 ， 以 减少 数据 中 心 的 环境 影响 。 同 年 ， 在 
中 国 由 阿里 巴巴 、 百 度 、 腾 讯 三 方 合作 发 起 了 
“天 蝎 计 划 (Scorpio Project) ”， 并 在 同年 
年 底 确立 了 最 初版 本 的 技术 规范 ， 旨 在 通过 提 
出 一 种 统一 标准 的 设计 规范 ， 实 现 数据 中 心 低 
成 本 的 可 靠 灵活 扩展 。 整 机 柜 服务 器 由 于 具备 
高 密度 、 大 颗粒 一 体 化 交付 、 集 中 供电 散热 和 
管理 这 些 特点 ， 势 必 成 为 未 来 数据 中 心 IT 基础 
架构 的 核心 形态 。 后 来 天 蝎 项 目 被 正式 更 名 为 
ODCC (Open Datacenter Committee) 。2016 
年 ，LinkedIn 提 出 Open19 计 算 标准 ， 并 在 次 年 
成 立 基 金 会 。 截 至 目前 ， 有 三 大 全 球 整 机 柜 服 
务 器 标准 ， 分 别 是 美国 的 OCP、Open19 和 中 国 
的 ODCC。 

目前 ， 浪 潮 是 唯一 一 家 同时 加 入 ODCC、 
OCP、Open19 全 球 三 大 开放 计算 组 织 的 服务 
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器 供应 商 ， 也 是 全 球 届 指 可 数 的 旗下 产品 可 覆盖 准 的 OR 系列 整 机 柜 服务 器 ，10 月 ， 由 浪潮 研发 的 
ODCC、OCP 和 OPEN19 三 大 开发 计算 标准 的 三。 ON5263M5 服 务 器 正式 通过 OCP 的 认证 ， 是 OCP 社 
商 。 早 在 2010 年 ， 浪 潮 就 研制 成 功 第 一 台 整 机 柜 。 区 首 款 基于 Intel Skylake 平 台 的 服务 器 ， 同 年 ， 浪 
服务 器 SR 1.0， 此 时 天 蝎 组 织 CODCC 的 前 身 ) 潮 也 是 OPEN19 的 创始 会 员 ， 全 球 最 先 发 布 了 符合 
尚未 成 立 。 浪 潮 SR 整 机 柜 服 务 器 很 大 程度 上 影响 ”OPEN19 标 准 的 服务 器 。 

了 天 蝎 标 准 的 制定 ， 背 部 无 线 缆 风 扇 墙 以 及 机 柜 以 整 机 柜 服 务 器 SR 为 例 ， 如 图 11-44 所 示 ， 这 款 
管理 模块 RM 集成 到 电源 等 很 多 设计 思路 直接 被 天 整 机 柜 服 务 器 大 量 的 设计 理念 被 天 蝎 标 准 所 采用 ， 并 
蝎 标 准 采用 ， 并 延 用 至 今 。2017 年 ， 浪 潮 加 入 了 ”成 为 天 蝎 规 范 确定 后 首 批 实施 交付 的 产品 ， 确 立 了 整 
OCP， 成 为 其 铂金 会 员 ， 发 布 了 符合 OCP 国 际 标 — 机 柜 服务 器 的 行业 标准 。 
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SR 整 机 柜 服 务 器 颠覆 了 传统 机 架 服务 器 的 设计 
架构 与 产品 形态 ， 采 用 模块 化 设计 ， 集 供电 、 散 热 
和 管理 于 一 个 机 柜 内 ， 采 用 42U 标 准 工 业 机 柜 ， 由 于 
取消 了 机 柜 侧 柱 设计 ， 同 时 ， 从 整体 的 系统 设计 角 
度 考虑 ， 结 点 高 度 增加 5%， 机 柜 深度 增加 19%， 总 
体 空间 利用 率 提高 了 31%。 在 12kW 的 机 柜 中 最 多 可 
部 署 48 个 双 路 服务 器 结 点 ， 部 署 密度 提高 到 传统 机 
架 式 服务 器 的 二 倍 ， 与 传统 的 机 架 服 务 器 相 比 ， 部 
署 速 度 可 提升 8 一 10 倍 ， 功 耗 节省 20%， 空 间 利 用 率 
高 达 90%。 

SR 整 机 柜 服 务 器 采用 集中 供电 设计 ， 结 合 电源 负 
载 动态 调整 技术 ， 使 机 柜 中 所 有 结 点 处 于 半 载 工作 状 
态 ， 电 源 转化 率 始终 维持 在 94% 左 右 ， 比 同等 数量 的 
传统 服务 器 节能 10%。 机 柜 背 部 风扇 墙 采用 集中 散热 
设计 ， 选 用 140mmX38mm 大 尺寸 风扇， 散热 功率 相 
比 小 风扇 减少 10% 以 上 。 而 集中 管理 模块 RMC (Rack 
Management Controller) 能 够 实时 监控 送 风 口 温度 ， 
动态 调节 风扇 组 转速 ， 有 效 降低 散热 功 耗 ， 散 热效率 
提升 25%。 

SR 整 机 柜 服 务 器 采用 了 两 层 可 靠 性 管理 设计 ， 集 
中 管理 模块 (RMC) 可 通过 RMC 命 令 行 方式 ， 也 可 
使 用 图 形 化 界面 的 管理 软件 进行 管理 ， 实 现 管理 中 心 
对 整 机 柜 的 功能 模块 和 支撑 模块 统筹 管理 。 而 当 RMC 
发 生 故 障 时 ， 结 点 中 板 将 会 立即 接替 对 机 柜 模块 的 监 
控 工 作 ， 保 证 系统 正常 运行 。 

SR 整 机 柜 服 务 器 采用 独 有 的 结 点 前 维护 设计 ， 
在 机 柜 后 部 无 任何 线 缆 ， 所 有 运 维 工作 均 可 在 冷 通 
道 进行 ， 而 且 机 柜 内 侧 特别 定制 了 走 线 槽 ， 先 进 的 
走 线 设计 ， 使 得 系统 运 维 难 度 大 大 降低 。SR 整 机 柜 
服务 器 将 传统 服务 器 中 的 电源 和 风扇 剥离 ， 改 由 整 
机 柜 集 中 供电 和 散热 ， 在 N+N 宛 余 的 电源 模 组 设计 


和 N+1 宛 余 的 风扇 模 组 设计 保障 下 ， 系 统 可 靠 性 大 大 
增加 ， 充 分 保证 系统 的 高 可 靠 运行 。 

此 外 ，SR 整 机 柜 服 务 器 采用 集中 供电 和 集中 散 
热 设 计 ， 电 源 和 风扇 模块 数量 相 比 传统 机 架 式 服务 器 
减少 了 90%， 故 障 单 点 数 大 大 降低 ， 且 易 损 部 件 全 部 
支持 热 插 拔 ， 平 均 故 障 率 与 传统 机 架 相 比 降低 一 半 
以 上 。 

如 图 11-45 所 示 ，SR 整 机 柜 拥 有 丰富 的 结 点 ， 
如 高 密度 计算 结 点 、 高 性 能 存储 结 点 、JBOD 硬 盘 
柜 、GPU Box 结 点 等 ， 以 满足 多 样 场景 需求 ， 广 泛 
应 用 于 百度 、 阿 里 巴巴 、 腾 讯 等 国内 领先 的 互联 网 
公司 ， 以 及 政府 、 交 通 、 教 育 、 电 信行 业 和 大 型 
企业 。 

2016 年 9 月 ， 浪 潮 推出 了 最 新 的 整 机 柜 新 品 SR 
4.5。 在 此 前 一 体 化 交付 、 集 中 供电 、 散 热 和 管理 
的 基础 上 ， 实 现 了 内 部 资源 的 重 构 和 池 化 ， 打 破 
核心 IT 资源 扩展 极限 ， 利 用 SAS、PCI-E 的 交换 技 
术 ， 实 现存 储 、 协 处 理 计 算 等 资源 的 弹性 分 配 ， 从 
而 更 好 地 适 配 日 益 繁杂 的 应 用 场景 和 业务 需求 。 此 
外 ， 统 一 的 基础 架构 和 简化 的 配置 代替 繁杂 多 样 的 
硬件 配置 ， 大 大 降低 了 采购 时 的 压力 和 成 本 。 而 简 
化 的 配置 同样 带 来 了 评测 选 型 的 简化 ， 这 也 降低 了 
日 常 运 维 的 压力 。 在 硬件 资源 解 耦 后 ， 用 户 可 针对 
不 同 硬件 分 批 次 进行 升级 ， 达 到 按 需 且 快 速 迭代 的 
目的 。 

如 图 11-46 右 图 所 示 。BBS 后 备 电池 结 点 可 替代 
传统 集中 式 UPS 供 电 方 式 ， 市 电 将 直接 到 达 服务 器 ， 
使 得 能 源 利用 效率 保持 在 99% 左 右 ， 当 机 房 断 电 时 ， 
BBS 可 提供 不 少 于 15min 的 稳定 供电 ， 保 证 数据 中 心 
后 备 供电 的 可 靠 性 。 


图 11-45 ”浪潮 SR 整 机 柜 服务 器 各 类 结 点 实物 图 
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图 11-46 ”浪潮 SR 整 机 柜 服务 器 的 SAS Switch 结 点 以 及 BBS 后 备 电池 结 点 


11.2.2.6 关键 应 用 主机 


关键 应 用 主机 是 一 类 高 性 能 、 高 可 靠 的 高 端 服 
务 器 ， 它 在 金融 、 电 信 、 政 府 、 能 源 等 关键 行业 是 
重大 核心 装备 。 与 强调 每 秒 钟 运算 能 力 的 高 性 能 计 
算 机 有 所 不 同 ， 关 键 应 用 主机 关注 每 分 钟 交易 处 理 
的 次 数 ， 更 强调 实时 性 和 高 可 用 度 。 关 键 应 用 主机 
市 场 应 用 主要 为 银行 、 电 信和 能源 与 关键 行业 应 用 
中 ， 信 息 系 统 的 核心 是 数据 库 ， 关 键 应 用 主机 系统 
多 线程 并 发 、 紧 耦合 对 于 结构 化 处 理 提供 重要 支 
持 ， 关 键 应 用 主机 计算 能 力 扩展 性 、 内 存 扩 展 性 、 
I/O 扩 展 性 满足 数据 库 对 于 响应 速度 和 并 发 处 理 能 
力 的 要 求 ， 关 键 应 用 主机 系统 的 容错 技术 和 高 可 用 
技术 支持 数据 库 系 统 提 供 连续 稳定 的 服务 ， 关 键 应 
用 主机 是 贯穿 大 机 器 研制 、 操 作 系统 、 中 间 件 、 数 
据 库 的 系统 工程 ， 带 动 信息 产业 发 展 ， 是 信息 化 装 
备 的 核心 装备 。 

2013 年 1 月 22 日 ， 浪 潮 集 团 发 布 了 中 国 第 一 台 关 
键 应 用 主机 “天 梭 K1”， 如 图 11-47 所 示 。 天 梭 K1 是 
我 国 863 计 划 “ 重 大 专项 高 端 容错 计算 机 研制 与 应 用 
推广 ”项 目 成 果 ， 这 标志 着 中 国 成 为 继 美 国 、 日 本 之 
后 全 球 第 三 个 掌握 最 新 关键 应 用 主机 技术 的 国家 之 
一 。 该 产品 使 用 K-UX 操 作 系统 ， 系 统 通过 国际 Open 
Group Unix 03 认证 ， 是 中 国 首 款 UNIX 操 作 系统 。 浪 
潮 天 梭 K1 系 统 采用 全 宛 余 硬件 架构 和 多 维 高 可 用 设 
计 ， 可 靠 性 高 达 99.9994%， 最 高 可 扩展 32 颗 处 理 器 ， 
每 秒 可 完成 2.56 万 亿 次 浮 点 计算 ， 整 体 技术 指标 已 经 
达到 国际 先进 同类 设备 水 平 ， 部 分 功能 技术 指标 在 


11.2.3 网络 系统 


计算 机 网 络 有 多 种 ， 但 是 目前 最 常用 的 就 是 以 
太 网 。 也 就 是 每 台 计算 机 采用 以 太 网 卡 与 以 太 网 交 
换 机 连接 ， 多 台 以 太 网 交换 机 再 相互 连接 (可 以 有 
各 种 连接 拓扑 ) 形成 一 个 大 的 交换 网 ， 再 使 用 IP 路 
由 器 将 这 个 大 的 交换 网 与 其 他 网 络 相互 粘 合 起 来 并 
采用 IP 地 址 统一 路 由 。 在 第 7 章 中 简要 地 介绍 过 IP 路 
由 的 原理 。 

如 图 11-48 所 示 为 目前 主流 的 企业 内 网 组 网 拓 
扑 ， 其 采用 低 端 的 交换 机 与 各 类 终端 设备 (PC. F 
机 等 ) 直接 连接 ， 这 一 层 低 端 交换 机 被 称 为 接 入 层 
交换 机 ， 由 于 可 能 有 大 量 终端 设备 ， 所 以 接 入 层 交 
换 机 的 数量 也 比较 庞大 ， 为 了 实现 企业 内 网 中 终端 
之 间 的 相互 通信 ， 如 果 将 大 量 的 接 入 层 交 换 机 之 间 
两 两 互 连 的 话 ， 拓 扑 将 会 很 复杂 ， 交 换 机 上 行 端口 
数量 也 不 够 ， 所 以 实际 中 一 般 将 这 些 接 入 层 交 换 机 
之 间 使 用 星 状 拓扑 连接 起 来 ， 也 就 是 将 这 些 接 入 层 
交换 机 再 连接 到 一 层 交 换 机 上 ， 这 些 用 于 连接 接 入 
层 交 换 机 的 交换 机 ， 被 称 为 汇聚 层 交换 机 。 然 而 ， 
对 于 一 个 较 大 规模 的 网 络 ， 汇 聚 层 交 换 机 也 会 有 很 
多 台 ， 于 是 再 使 用 一 层 核心 层 交 换 机 来 连接 所 有 汇 
聚 层 交换 机 。 从 接 入 层 到 核心 层 ， 每 一 层 交 换 机 的 
规格 、 性 能 越 高 ， 因 为 它们 位 于 主干 道 ， 需 要 承载 
来 自 四 面 八方 的 流量 。 

网 络 拓扑 这 个 话题 已 经 在 多 核心 处 理 器 体系 结构 
和 超级 计算 机 两 章 中 分 别 有 过 一 些 深入 介绍 了 ， 这 里 


际 上 处 于 领先 地 位 ， 在 关键 行业 系统 中 ， 可 以 替代 
外 关键 应 用 主机 。 


图 11-47 浪潮 天 梭 K1 关 键 应 用 主机 


不 再 展开 。 
11.2.3.1 以 太 网 卡 


如 图 11-49 和 图 11-50 所 示 为 各 种 接口 速率 的 以 太 
网 卡 。 对 于 高 速 网 卡 ， 其 接口 就 无 法 使 用 电信 号 + 电 
缆 来 传递 了 ， 因 为 电信 号 的 抗 衰减 等 各 方面 已 经 无 法 
保证 在 可 接收 的 距离 〈 在 实际 的 数据 中 心机 房 中 ， 服 
务 器 与 以 太 网 交换 机 之 间 的 距离 往往 比较 长 ， 远 大 于 
与 SAS 卡 和 硬盘 之 间 的 距离 ， 所 以 SAS 线 缆 目 前 一 般 
都 是 电缆 ， 也 有 少数 采用 光纤 的 ) 上 准确 传递 数据 
位 ， 所 以 必须 转 接 成 光 信号 。 可 以 看 到 图 11-49 右 侧 以 
及 图 11-50 中 的 所 有 网 卡 接口 并 非 传统 的 双 绞 线 接口 
(RJ-45 接 口 )， 必 须 在 这 些 接口 上 插入 对 应 的 光电 
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转换 模块 。 

由 于 存在 各 种 速率 、 要 求 的 接口 ， 于 是 国际 上 有 
一 个 Small Form Factor (SFP， 小 型 尺寸 ) 标注 ， 定 义 
了 一 系列 接口 标准 ， 每 种 标准 名 称 均 以 SFF 开 头 ， 比 
如 SFF-8639 等 。 于 是 可 以 插入 到 某 种 SFP 接 口中 的 光 
电 转 换 / 电 电 转换 模块 ， 均 被 统称 为 SFP 转 接 模块 ， 或 
者 SFP 收 发 器 ， 如 图 11-51 所 示 。 


11.2.3.2 ”以 太 网 交换 机 和 路 由 器 


在 第 1 章 中 ， 冬 瓜 哥 就 介绍 了 一 个 使 用 Mux+FIFO 
搭建 的 简易 交换 机 核心 电路 模块 。 实 际 中 的 交换 机 都 
是 在 交换 核心 之 上 提供 更 多 更 强 的 功能 ， 比 如 引入 
VoQ (Virtual Output Queue， 之 前 章节 曾 在 多 处 多 次 
介绍 过 ) 或 者 说 Virtual Channel， 更 深 的 FIFO 队 列 深 
度 ， 更 多 的 以 太 网 特性 支持 等 。 

以 太 网 交换 机 按照 档次 规格 可 靠 性 等 由 低 到 高 依 
次 可 以 被 分 为 : 不 可 管理 的 桌面 级 交换 机 、 可 管理 桌 
面 级 交换 机 、 企 业 级 接 入 层 / 汇 聚 层 /核心 层 交 换 机 、 
运营 商 级 交换 机 几 个 大 类 。 所 谓 不 可 管理 ， 就 是 对 应 
产品 不 提供 任何 配置 命令 /界面 ， 即 插 即 用 ， 一 般 用 于 
家 庭 或 者 对 网 络 功能 性 能 可 靠 性 要 求 一 般 的 小 型 办 公 
室 。 可 管理 则 是 指 产品 提供 对 应 的 配置 手段 可 供用 户 
配置 高 级 功能 ， 比 如 VLAN 等 ， 这 种 产品 在 功能 上 比 
不 可 管理 交换 机 要 强 很 多 。 而 企业 级 和 运营 商 级 交换 
机 都 必须 是 可 管理 的 。 

如 图 11-52 所 示 ， 交 换 机 内 部 的 核心 部 件 就 是 交换 
芯片 ， 其 内 部 就 是 高 速 高 位 宽 的 Crossbar 和 大 量 缓冲 
队列 以 及 QoS 控制 模块 。 由 于 企业 级 交换 机 端口 数量 
一 般 较 多 ， 用 一 个 芯片 无 法 承载 如 此 多 的 端口 〈 并 不 
是 说 技术 上 无 法 承载 ， 关 键 在 于 成 本 ， 第 3 章 就 介绍 
过 ， 芯 片面 积 越 大 ， 良 率 越 低 ， 成 本 越 高 ) ， 所 以 就 
得 用 多 个 芯片 互 连 起 来 ， 形 成 一 个 网 中 网 ， 外 界 看 来 
该 交换 机 仿佛 只 有 一 个 交换 芯片 ， 实 际 上 内 部 是 由 多 
个 交换 芯片 组 成 的 小 网 络 。 

如 图 11-53 所 示 ， 外 部 接口 的 信号 首先 连接 到 黄 
色 方 框 中 的 PHY 层 处 理 芯片 ， 在 这 里 会 对 信号 做 底 
层 处 理 〈 详 见 第 7 章 相关 内 容 ) 。 处 理 完 之 后 的 数 
据 会 变 为 以 太 网 帧 被 输送 到 图 中 红色 方 框 的 核心 交 
换 芯 片 中 交换 。 该 交换 机 采用 了 三 个 核心 交换 芯片 
级 联 。 

核心 交换 芯片 采用 PCIE 方 式 连接 到 一 个 Freescale 
СКЖЕЖ) CPU 上 。 该 CPU 会 运行 一 个 RTOS 来 全 
盘 控制 整个 交换 机 ， 包 括 提供 命令 行 /GUI 来 响应 用 户 
的 配置 操作 ， 并 将 配置 操作 转换 成 对 应 的 寄存 器 操作 
通过 PCIE 链 路 下 发 到 核心 交换 芯片 对 应 寄存 器 ， 从 而 
配置 包括 VLAN、QoS、 速 率 、 固 件 升 级 等 功能 。4 片 
共 64MB 的 RAM 用 于 容纳 RTOS 代 码 和 数据 。RTOS 启 
动 代码 和 数据 被 保存 在 8MB 的 Flash ROM 中 ， 交 换 机 
的 全 局 配置 信息 也 被 保存 在 这 里 ， 每 次 开机 后 会 将 这 
些 配置 重新 下 发 到 交换 芯片 中 。 


图 11-48 ”目前 主流 的 企业 内 网 组 网 拓扑 
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11-49 ”1Gb/s 和 10Gb/s 速 率 接口 的 以 太 网 卡 


ж 


h, 


ч ч 1 
41106Ь/5й1 ЖЕЕ 单个 40Gb/s 讽 口 ( QSFP ) 的 以 太 网 卡 2 个 50Gb/s 端 口 的 以 太 网 卡 1 个 100Gb/s 端 口 的 以 太 网 卡 


图 11-50”40Gb/s 和 100Gb/s 速 率 接口 的 以 太 网 卡 


ХЕР :XWDM, Bi-Di, ХОРОМ SFP+ :XWDM,Bi-Di, ХОРОМ Tunable ХЕР 


= = = = 


= PON Module SFP : АРС Receptacle, IT versionSFP : е 入 Bi-Di 
2M TRX SFP : Bi-Di, CWDM, IT Version 


图 11-51 各 种 SFP/QSFP/QSFP+ 模 块 以 及 线 缆 


图 11-52 某 型 号 千 兆 以 太 网 交换 机 内 部 

如 图 11-54 所 示 ， 与 服务 器 类 似 ， 也 有 刀片 /模块 
化 交换 机 /路 由 器 ， 这 类 形态 的 产品 一 般 都 比较 高 端 。 

交换 机 、 路 由 器 等 设备 中 的 总 控 CPU 不 需要 使 由 于 网 络 速率 、 接 口 形态 众多 ， 所 以 存在 大 量规 格 

用 性 能 太 高 的 型 号 ， 因 为 它 不 会 参与 以 太 网 帧 的 处 。 ”的 交换 机 ， 模 块 化 交换 /路 由 设备 所 做 的 就 是 将 这 些 
理 或 转发 ， 核 心 交换 芯片 会 按照 对 应 的 配置 参数 在 — 众多 交换 机 作成 刀片 ， 插 入 到 一 个 大 机 箱 内 统一 

后 台 黑 菊地 全 速 转发 以 太 网 帧 。 但 是 有 些 时 候 可 以 |。 理 ， 而 且 还 能 做 到 多 个 模块 之 间 相互 交换 数据 。 各 个 

将 符合 某 些 条 件 的 以 太 网 帧 截获 并 传递 给 该 CPU 处 刀片 交换 机 被 称 为 业务 板 / 业 务 模块 ， 负 责 运行 RTOS 

理 然 后 再 发 出 去 或 者 做 一 些 其 他 分 析 ， 那 么 可 能 就 ”的 全 局 控制 CPU/RAM 也 被 作 到 一 个 单 板 上 插入 到 机 

需要 较 强 性 能 的 CPU 来 承担 该 任务 。 箱 ， 其 被 称 为 控制 板 /引擎 板 /引擎 模块 Supervisor 
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Module) 。 负 责 将 多 个 业务 板 相互 连接 起 来 交换 数据 
的 核心 交换 芯片 〈 一 般 会 有 多 个 核心 交换 芯片 形成 网 
PM, ME) 所 在 的 单 板 被 称 为 核心 交换 板 。 


>> 


视 不 同 产品 设计 而 定 ， 有 些 产品 的 核心 交换 芯 
片 与 引擎 模块 位 于 同一 个 单 板 上 以 节省 空间 ， 也 有 
的 产品 将 核心 交换 芯片 直接 焊接 到 机 箱 背 板 上 。 


如 图 11-55 所 示 为 某 型 号 模块 化 交换 机 细节 。 前 面 
板 可 以 插入 各 类 不 同型 号 的 交换 机 刀片 / 结 点 /模块 ， 
如 果 需 要 跨 结 点 交换 数据 ， 则 需要 经 过 机 箱 后 面 的 项 
层 核心 交换 模块 〈 图 中 的 Crossbar Fabric Module) 处 
理 。 如 图 11-56 所 示 为 该 交换 机 所 采用 的 核心 交换 板 。 

在 网 络 系统 中 还 有 一 类 关键 设备 ， 就 是 网 络 安全 
设备 ， 包 括 包 过 滤 防 火 墙 、 入 侵 检测 等 设备 ， 这 些 设 
备 对 网 络 包 进行 现场 分 析 过 滤 ， 匹 配 了 某 个 过 滤 条 件 
的 数据 包 会 被 施加 对 应 的 处 理 ， 比 如 修改 包头 、 内 容 
之 后 再 转发 出 去 ， 或 者 直接 丢弃 。 对 于 这 些 设备 的 细 


节 ， 篇 幅 所 限 ， 有 兴趣 的 读者 可 以 自行 了 解 。 
计算 机 + 网 络 ， 是 组 成 计算 机 整体 上 层 社 会 的 基础 。 

其 他 各 种 衍生 形态 都 是 生长 在 这 个 基础 之 上 的 ， 形 成 丰 

富 的 计算 机 生态 环境 ， 比 如 接 下 来 要 介绍 的 存储 系统 。 


计算 机 存储 系统 的 基石 就 是 硬盘 ， 多 个 硬盘 可 
以 通过 SATA/SAS 链 路 直接 连接 到 SAS 控 制 器 上 ， 亦 
或 者 先 连接 到 SAS Expander 上 ， 后 者 再 使 用 上 行 SAS 
链 路 连接 到 SAS 控 制 器 上 。 而 SAS 控 制 器 (可 以 支持 
RAID 功 能 ， 支 持 RAID 功 能 的 SAS 控 制 器 卡 被 俗称 为 
SAS RAID 卡 ) 再 与 CPU 的 PCIE 信 和 号 连接 。 

随 着 固态 硬盘 逐渐 普及 ， 出 现 了 PCIE 接 口 
(SFF8639 连 接 器 或 者 标准 PCIE 插 槽 ) 的 、 识 别 
NVMe IO 指令 集 的 固态 硬盘 ， 俗 称 NVMe 盘 。 这 些 盘 
通过 各 种 连接 器 / 线 费 或 者 与 CPU 输出 的 PCIE 信 号 直 
接 相连 ， 或 者 先 连接 到 PCIE Switch 上 ， 再 使 用 上 行 
PCIE 链 路 与 CPU 的 PCIE 信 号 相连 。 
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提示 > 


在 2017 年 之 前 市 场 上 也 有 不 少 采 用 SFF8639 
或 者 标准 PCIE 插 模 ， 但 是 并 不 兼容 NVMe 协 议 的 
固态 硬盘 / 卡 。 实 际 上 ，NVMe 协 议 是 后 来 才 得 以 
逐渐 普及 的 ， 在 没有 NVMe 标 准 协议 之 前 ， 这 些 
PCIE 接 口 的 固态 盘 一 般 都 采用 厂商 自 定 义 的 1/O 指 
Ako 而 目前 ， 非 NVMe 协 议 的 PCIE 接 口 固态 盘 
越 来 越 少 。 


如 图 11-57 所 示 为 SCSI HBA、 各 类 SCSI 设 备 
(SCSI 硬 盘 、SCSI DVD 光驱 和 SCSI 磁 带 机 ) 以 及 整 
个 SCSI 系 统 的 连接 方式 。SCSI 接 口 虽 然 早已 被 淘汰 ， 
但 是 SCSI 无 疑 是 整个 计算 机 存储 系统 的 开山 鼻祖 ， 不 
得 不 介绍 ， 后 来 的 技术 都 是 SCSI 的 改进 和 延续 。 图 中 
左 侧 可 以 看 到 ，SCSI 适 配 卡 (SCSI HBA) 一 般 提供 
用 于 连接 机 箱 内 部 SCSI 设 备 的 内 部 SCSI 接 口 ， 以 及 用 
于 连接 机 箱 外 设备 的 外 部 SCSI 接 口 ， 但 是 这 两 种 接口 
的 管 脚 和 信号 定义 完全 相同 ， 只 是 连接 器 外 观 和 对 应 
的 线 缆 不 同 而 已 。 由 于 SCSI 被 定义 为 一 个 共享 总 线 ， 
所 以 系统 中 同一 个 SCSI 连 接 器 下 挂 的 设备 同 处 一 个 总 
线 ， 具 体 是 在 SCSI 线 缆 上 每 隔 一 定 距离 就 分 接 出 一 个 
SCSI 接 头 的 方式 实现 总 线 连 接 。 

而 到 了 SAS/SATA 时 代 ， 底 层 SCSI 总 线 被 抛弃 ， 
改 为 SAS 点 对 点 直 连 或 者 SAS 交 换 拓 扑 ， 如 图 11-58 所 
示 。SATA 连 接 器 可 以 插 到 SAS 连 接 器 中 ， 但 是 SAS 
不 能 插 到 SATA Only 的 连接 器 中 ，SAS 兼 容 SATA。 另 
外 ，SAS 连 接 器 上 有 两 套数 据 信号 金 手指 ， 下 文 再 解 
释 这 么 做 的 原因 。SAS/SATA 设 备 可 以 直接 使 用 线 缆 
与 SAS HBA 相 连 ， 也 可 以 先 连 接 到 SAS Expander |, 
如 图 右上 角 所 示 。 

如 果 将 SAS Expander+ 硬 盘 + 供 电 / 散 热 系 统一 起 封 
装 到 一 个 独立 箱 体 中 ， 这 个 箱 体 被 俗称 为 JBOD (Just 


aBunch OfDisks) ， 或 者 正规 一 些 称 为 Disk Enclosure 
(硬盘 柜 、 硬 盘 扩 展柜 ) ， 也 有 厂商 称 之 为 Disk 
Shelf、Disk Chasis 等 。 

如 果 某 计算 机 想 要 接 入 更 多 数量 的 硬盘 ， 机 箱 内 
部 装 不 下 ， 就 需要 在 外 部 挂 接 一 个 或 者 多 个 JBOD， 
JBOD 中 的 SAS Expander 上 行 接口 被 作 在 JBOD 箱 体 
外 面 ， 采 用 线 缆 与 Host 主 机 上 的 SAS HBA/RAID 卡 的 
SAS 接 口 相 连 。 

但 是 也 有 些 硬盘 模 位 比较 多 的 服务 器 选择 直接 把 
所 有 硬盘 塞 入 机 箱 内 。 比 如 如 图 11-59 所 示 为 一 款 可 插 
26 块 SAS/SATA 硬 盘 的 服务 器 内 部 设计 示意 图 。 在 后 
置 背 板 上 提供 24 个 硬盘 槽 位 和 6 个 x4 的 SAS 连 接 器 ， 
使 用 线 缆 连 接 到 SAS Expander 卡 上 的 SAS Expander 
上 ， 后 者 提供 两 个 x4 上 行 接口 连接 到 SAS HBA/RAID 
卡 上 。 该 服务 器 还 具有 一 块 小 的 具有 两 个 模 位 的 前 置 
背 板 ， 其 采用 SAS 线 缆 连 接 到 SAS Expander 剩 余 的 一 
个 x4 接 口上 ， 这 样 SAS HBA/RAID 卡 共 可 识别 到 最 多 
26 个 硬盘 。 

JBOD 实 物 图 如 图 11-58 左 下 角 所 示 。JBOD 中 的 
SAS Expander 一 般 不 会 被 焊接 到 背 板 上 ， 因 为 一 旦 出 
现 SAS Expander 硬 件 故 障 或 者 背 板 上 器 件 故障 ， 则 需 
要 将 所 有 硬盘 拔 出 ， 更 换 这 个 背 板 ， 这 样 不 便于 维 
护 。 实 际 中 一 般 将 SAS Expander 作 成 可 插 拔 可 更 换 的 
单 板 ， 这 些 机 箱 内 可 现场 方便 更 换 的 部 件 被 统称 为 
FRU (Field Replacable Uni) 。 图 11-58 中 下 方 可 以 看 
到 三 种 不 同 的 FRU 设 计 ， 带 风扇 的 这 个 SAS Expander 
卡 虽 然 可 以 插 拔 ， 但 是 不 方便 ， 需 要 开 箱 ， 并 且 它 与 
硬盘 背 板 之 间 通 过 SAS 线 缆 连 接 ， 更 换 时 需要 拔 掉 线 
缆 。 而 右 侧 的 两 种 设计 则 无 须 开 箱 ， 在 箱 外 即 可 插 
拔 ， 与 背 板 之 间 采 用 特殊 的 连接 器 连接 。 不 同 厂商 
对 JBOD 中 的 SAS Expander 单 板 的 称呼 也 不 同 ， 比 如 
有 的 称 之 为 IOM (IO Module) ， 有 的 则 称 之 为 LCC 

(Link Control Card) ， 有 的 则 是 其 他 称谓 。 


11-57 SCS HBA、 各 类 SCSI 设 备 以 及 整个 SCSI 系 统 的 连接 方式 


第 11 章 АЛЕЯ ES И 


BSFFEAY 
шп; 


ПЕТЕ 
PORT SIBAT 
> топ? 


I 
PORT! — эмт 


. 
asma 
-一 


定制 化 Mezzanine 
SAS HBA/Raid 卡 


MASIR 
图 11-59 某 服务 器 内 部 的 背 板 、Expander、SAS HBA 拓 扑 


由 于 SAS Expander 本 质 是 一 个 交换 芯片 ， 这 
意味 着 多 个 SAS Expander 可 以 级 联 成 很 多 级 ， 所 以 
JBOD 自 然 也 可 以 级 联 ， 如 图 11-60 所 示 。JBOD 箱 
体 上 的 SAS Expander 模 块 上 会 分 别提 供 至 少 一 个 上 
行 和 下 行 SAS 接 口 以 支持 级 联 。 有 的 JBOD 中 的 SAS 
Expander 模 块 还 提供 两 个 上 行 、 两 个 下 行 接口 ， 其 
目的 是 为 了 增加 带宽 。 用 两 根 SAS 线 缆 连接 到 HBA 
或 者 上 下 游 Expander 时 ， 这 两 个 x4 的 SAS 接 口 会 自 
动 协商 成 一 个 x8 的 SAS 端 口 。 此 外 ， 计 算 机 上 也 可 
以 插 多 张 SAS HBA/RAID 卡 ， 每 一 张 卡 上 的 每 个 
SAS 端 口 下 面 都 可 以 级 联 一 串 JBOD。 当 然 ，JBOD 
级 联 的 越 多 ， 访 问 链 路 最 远 端的 SAS 设 备 的 时 延 也 
就 越 高 ， 不 利于 性 能 整体 发 挥 。 

可 能 有 的 读者 已 经 发 现 了 。JBOD 上 一 般 有 两 
个 SAS Expander 模 块 ， 每 个 模块 各 自 提供 一 对 上 
下 行 SAS 接 口 。 另 外 ， 图 11-60 右 侧 所 示 的 计算 机 
主机 和 一 堆 JBOD 的 实物 图 中 ， 可 以 看 到 有 两 台 主 
机 。JBOD 中 需要 两 个 SAS Expander 模 块 、 机 柜 中 
的 两 台 主机 ， 这 似乎 预示 着 这 个 系统 的 某 些 特殊 
性 ， 其 中 的 门道 我 们 下 文 再 介绍 。 


ЖА 


4-wide internal SAS connectors 
图 11-58 ”SAS/SATA 时 代 的 连接 器 、SAS HBA, SAS Expander, SAS JBOD 实 物 图 


11.2.4.1 机 械 磁 盘 


计算 机 存储 系统 的 基石 就 是 硬盘 。 本 节 将 展示 
机 械 磁 盘 的 内 部 构造 和 原理 。 值 得 一 提 的 是 ， 机 械 
磁盘 可 能 会 在 不 久 的 将 来 被 淘汰 ， 或 者 应 用 场景 收 
缩 到 很 窗 的 应 用 领域 (比如 备份 等 场景 )》， 取 而 代 
之 的 是 固态 硬盘 。 但 是 仍然 有 必要 来 了 解 和 铭记 这 
个 叱 喀 风 云 半 个 多 世纪 的 角色 。 

利用 磁 来 存储 数据 的 典型 例子 是 如 图 11-61 所 示 
的 磁性 画板 。 假 设 黑 点 表示 1， 白 色 表 示 0， 那 么 如 
果 想 保存 比特 1， 点 上 个 点 就 行 了 。 机 械 硬 盘 就 是 把 
这 个 原理 进行 了 高 密度 、 高 速 、 自 动 化 实现 而 已 。 


Disk Drive Connectors. 
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如 图 11-62 所 示 为 20 世 纪 的 古老 磁盘 的 照片 。 那 
时 候 人 们 把 磁性 粉末 均匀 地 镀 到 平整 的 金属 片上 ， 然 
后 采用 磁头 来 磁化 盘 片 上 的 粉末 《〈 写 过 程 ) 以 及 感受 
盘 片上 粉末 的 磁场 翻译 成 1 和 0 〈 读 过 程 )》。 为 了 让 磁 


= 


头 能 够 达到 盘 片 上 所 有 
同时 把 磁头 放置 到 一 个 
让 磁头 臂 沿 着 盘 片 半径 
№, ЛИЛИЯ 


区 域 ， 人 们 让 盘 片 转动 起 来 ， 
金属 撑 杆 《磁头 臂 ) 的 末端 ， 
的 方向 摆动 。 为 了 提升 存储 密 
加 起 来 ， 每 个 盘 片 的 正 反面 都 


可 以 存储 数据 ， 磁 头 臂 针 对 每 个 盘 片 用 上 下 两 个 磁头 
分 别 读 写 其 正 反 两 面 的 数据 。 即 便 如 此 ， 那 时 候 的 硬 
盘 容 量 也 只 有 5MB 到 几 十 MB 。 

现代 的 硬盘 和 以 前 大 不 一 样 了 ， 可 以 在 标准 3.5 
英寸 硬盘 空间 内 装 下 9 张 碟 片 (截止 目前 最 高 的 密 
№) ， 整 盘 容 量 可 达 14TB， 而 且 容 量 值 还 有 很 大 的 提 
升 空间 。 

现代 硬盘 的 磁头 越 作 越 小 ， 盘 片上 镀 的 磁性 粉 
末 的 颗粒 也 越 来 越 细 ， 这 样 就 可 以 存储 更 高 密度 的 数 
据 。 这 就 像 如 果 要 画 出 更 丰富 细腻 的 线条 ， 就 得 把 磁 
性 画板 的 分 辩 率 作 的 越 来 越 高 ， 画 笔 的 笔尖 作 的 越 来 
越 细 一 样 。 那 么 随 之 而 来 的 一 个 问题 就 是 必须 将 磁头 
辟 摆 动 的 精度 提高 ， 比 如 产生 纳米 级 的 位 移 ， 如 此 精 
确 的 移动 ， 可 以 采用 齿轮 组 来 实现 ， 但 是 齿轮 组 会 有 磨 
损 、 功 耗 大 的 问题 。 现 代 硬 盘 都 是 采用 电磁 力 来 驱动 磁 
头 臂 摆动 ， 磁 头 臂 尾 部 有 金属 线圈 ， 将 其 放置 在 一 个 磁 
场 中 ， 只 要 给 这 个 线圈 加 以 不 同 大 小 、 方 向 、 时 间 的 电 
流 ， 即 可 控制 磁头 臂 向 对 应 方向 做 对 应 距离 的 移动 。 如 
图 11-63 左 侧 所 示 硬 盘 的 左下 角 金 属 盖 板 背面 有 两 片 强 磁 
铁 ， 磁 头 臂 的 线圈 就 位 于 两 片 磁铁 中 间 。 

如 图 11-64 所 示 ， 左 侧 两 张 图 为 很 早期 硬盘 的 磁 
头 ， 竟然 可 以 看 到 导线 都 裸露 在 外 部 ， 而 不 是 嵌入 
到 PCB 中 。 如 图 11-65 所 示 为 现代 磁盘 的 磁头 臂 和 磁 
头 。 碟 片 位 于 每 两 个 磁头 臂 /磁头 之 间 的 位 置 ， 从 而 
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上 下 两 面 可 以 被 读 写 。 磁 头 实际 上 是 两 块 电磁 铁 ， 
分 别 负责 读 和 写 。 初 中 物理 知识 ， 给 铁 棒 绕 上 线 
圈 ， 通 电 后 ， 金 属 棒 就 会 产生 磁性 。 小 一 些 的 电磁 
铁 用 来 感受 碟 片 上 的 磁性 颗粒 磁场 ， 感 生出 电流 ， 
再 通过 分 析 电 路 解码 对 应 电流 信号 并 转换 成 1 和 0， 
从 而 读 出 数据 。 而 大 一 些 的 电磁 铁 用 于 磁化 碟 片 上 
的 磁性 颗粒 ， 写 入 数据 ， 为 了 产生 足够 磁性 ， 其 体 
积 不 得 不 作 大 。 所 以 ， 读 头 不 需要 加 电 ， 而 写 头 需 
要 加 电 产 生 磁 场 。 

如 图 11-66 所 示 为 磁头 部 分 的 局 部 放大 图 。 磁 头 
部 分 不 能 接触 到 碟 片 ， 否 则 会 划 伤 碟 片 。 磁 头头 部 是 
一 个 slider〔 滑 块 ， 块 状 物 ) ， 磁 头 就 位 于 slider 的 最 
尖端 。slider 的 作用 有 两 个 ， 一 个 是 将 磁头 辟 伸 过 来 的 
导线 固定 并 连接 到 磁头 的 线圈 上 ; 第 二 个 作用 则 是 提 
供 一 定 坡度 ， 从 而 让 碟 片 旋转 时 带动 的 空气 冲击 到 该 
坡度 表面 从 而 为 整个 slider 产 生 向 上 的 托 举 力 ， 从 而 让 
slider 与 碟 片 之 间 留 有 3 一 6nm 左 右 的 距离 。 图 中 右上 
角 所 示 为 磁头 批量 生产 时 的 场景 。 

如 图 11-67 所 示 为 磁头 在 显微镜 下 的 照片 。 

如 图 11-68 所 示 ， 研 究 显示 ， 磁 性 材料 内 部 会 自发 
形成 一 块 块 的 磁 畴 (Magnetic Domain, Grain) ， 不 同 
材料 磁 畴 的 形状 样式 可 能 不 同 〈 图 中 间 竖 排 所 示 ) ， 同 
一 种 材料 内 部 的 不 同 磁 畴 的 形状 样式 也 可 能 不 同 。 每 个 
磁 畴 区 域内 部 的 磁性 颗粒 的 磁极 方向 均一 致 ， 但 是 不 


图 11-63 


现代 硬盘 内 部 构造 ( 右 侧 构造 图 为 单 碟 片 硬盘 ) 


11-64 ”早期 硬盘 的 磁头 部 分 
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图 11-68 ”磁性 材料 的 磁 畴 


同 磁 畴 的 磁极 方向 可 能 不 一 致 。 在 材料 不 体现 磁性 时 ， 

内 部 磁 畴 的 磁极 方向 杂乱 无 章 ， 宏 观 上 相互 抵消 。 而 
一 旦 该 材料 受到 外 界 电 磁场 作用 而 产生 磁性 ， 那 么 它 内 
部 的 磁 畴 磁极 方向 趋 于 一 致 ， 外 界 作 用 越 强 ， 内 部 磁 
哮 的 磁极 方向 一 致 的 比例 就 越 高 。 外 界 作 用 也 有 可 能 改 
变 内 部 磁 畴 的 大 小 、 数 量 。 图 中 右 侧 所 示 为 采用 磁力 
EMEK (Magnetic Force Microscope，MFM。 由 于 材料 
磁性 的 变化 并 不 会 导致 其 光学 性 质 的 变化 ， 所 以 必须 
用 磁力 探测 设备 ) 探测 到 的 材料 内 部 磁 畴 磁极 布局 。 

再 来 看 看 磁盘 表面 镀 有 的 磁性 材料 的 磁 畴 状况 。 

如 图 11-69 左 上 角 所 示 为 磁力 显微镜 探测 出 的 磁盘 表面 
磁 畴 分 布 图 样 。 向 盘 片 写 入 数据 的 过 程 ， 就 是 将 一 堆 
磁 畴 进行 磁化 的 过 程 ， 每 次 会 磁化 多 少 个 磁 畴 是 随机 


B= 30 nm (o, < 3 nm) 
W-194 nm, t= 15 nm, d= 10 nm 


том... 
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盘 片 


不 可 预知 的 。 这 就 像 用 笔尖 在 磁性 画板 上 点 一 个 点 ， 
吸 上 来 多 少 个 磁性 颗粒 、 这 个 点 的 形状 ， 都 是 随机 
的 。 但 是 这 并 不 妨碍 其 对 二 进 制 信息 的 表示 。 

如 图 11-69 右 下 角 所 示 ， 与 你 想象 的 可 能 不 同 ， 
磁性 画板 上 一 个 黑 点 表示 1， 空 白 表示 0。 但 是 由 于 读 
头 需要 通过 切割 的 磁场 线 来 感受 读 头 下 方 的 磁性 分 
布 ， 实 际 工 程 中 发 现 ， 如 果 去 感受 相 邻 两 片 磁 畴 区 
域 的 磁极 指向 是 否 发 生 了 翻转 ， 如 果 翻 转 了 则 表示 1 
CERO) ， 不 翻转 则 表示 0 (或 1) ， 则 在 信号 处 理 电 
路 的 设计 上 、 容 错 性 上 都 更 加 合适 。 图 中 右 下 角 区 域 
给 出 了 两 种 磁 畴 分 布 形状 ， 上 面 的 设计 其 磁极 指向 与 
盘 片 表面 平行 ， 而 下 方 的 设计 则 是 磁极 指向 垂直 于 盘 
片 表 面 。 显 然 ， 下 面 的 方式 存储 密度 更 高 ， 所 以 其 又 


Record Head 
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11-69 ” 碟 片 上 的 磁性 颗粒 组 织 以 及 磁头 磁化 方式 
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被 称 为 Perpendicular Magnetic Recording (РМЕ, Ж 
直 记 录 ) 技术 ， 而 上 方 的 设计 则 被 称 为 Longitudinal 
Magnetic Recording (LMR, KFR) 。 至 于 PMR. 
是 如 何 实现 的 下 文 再 介绍 。 


可 以 想象 ， 盘 片 的 旋转 速度 与 写 头 对 盘 片 下 方 
磁 时 的 磁化 过 程 必须 是 一 个 精确 匹配 的 过 程 ， 比 如 
写 头 线圈 中 的 电流 突然 卡 壳 了 10hs， 而 此 时 盘 片 
已 经 旋转 到 其 他 位 置 了 ， 此 时 写 头 必须 等 待 盘 片 
再 次 转 到 上 一 次 的 断 点 位 置 才 能 继续 写 入 数据 (X 
际 上 是 重新 写 整 个 扁 区 ， 下 文 再 介绍 ) 。 所 以 ， 
必然 需要 有 一 种 机 制 ， 能 够 让 硬盘 的 控制 系统 知道 
当前 磁头 下 方 指向 的 是 盘 片 的 哪个 位 置 ( 磁道 、 
AE) 。 而 这 个 定位 工作 必须 依靠 读 头 不 断 地 感受 
其 下 方 的 各 种 坐标 信号 (除了 存 数据 ， 还 得 存 各 种 
定位 坐标 信号 ) 然后 反馈 给 分 析 电 路 用 于 决策 ， 这 
是 一 个 连续 闭环 反馈 控制 系统 ， 下 文 再 介绍 这 些 
坐标 。 


由 于 盘 片 是 旋转 的 ， 写 头 记 录 数 据 最 终 就 是 
一 圈 一 圈 的 同心 圆 ， 每 个 同心 圆 被 称 为 一 个 磁道 
CTrack) ， 磁 道上 又 被 划分 成 更 细 粒 度 的 存储 区 
域 一 一 扇 区 (Sector) 。 通 常 每 个 扇 区 可 以 存储 4096 
位 (512 字 节 ，0.5KB) 的 数据 。 每 个 扇 区 头 部 有 一 
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些 元 数据 来 保存 该 扇 区 的 扇 区 号 、 状 态 等 信息 ， 这 
些 元 数据 信号 输送 到 读 头 之 后 ， 分 析 电 路 就 可 以 判 
断 当 前 的 磁头 位 置 了 。 如 图 11-70 左 侧 所 示 为 读 头 的 
结构 示意 图 ， 读 头 只 感受 其 下 方 的 信号 并 不 断 地 将 
感 生 电流 传递 给 分 析 电 路 ， 硬 盘 的 分 析 电 路 永远 都 
在 不 停 地 分 析 读 头 回 传 的 电信 号 来 判断 当前 磁头 的 
位 置 。 

如 图 11-70 Ca) 所 示 为 磁盘 表面 的 原子 力 显微镜 
(Atomic Force Microscope, АЕМ. HJ ИЕ) 
物体 表面 接触 ， 将 受 力 布局 转换 成 物体 表面 的 高 度 
值 ， 并 展示 在 照片 上 ) 照片 ， 图 11-70 (b) 显示 的 是 
磁力 显微镜 下 的 照片 ， 可 以 清晰 看 到 多 个 并 排 的 磁道 
结构 和 每 个 位 〈 黑 色 条 纹 ) 的 磁力 布局 。 图 中 右 侧 所 
示 为 早期 磁盘 的 磁道 布局 ， 可 以 发 现 磁道 间距 较 大 
〈 所 以 存储 容量 也 低 ) 。 被 写 头 磁 化 之 后 的 每 个 磁 畴 
区 域 中 大 概 包 含 100 个 磁 畴 ， 每 个 磁 畴 直径 约 10nm 级 
别 ， 磁 道 宽 度 约 600nm。 不 同时 代 、 型 号 的 硬盘 上 的 
磁道 、 磁 畴 布局 都 可 能 不 同 。 最 新 的 硬盘 每 个 磁 暑 
区 域 中 可 能 只 包含 个 位 数 磁 畴 了 ， 而 磁道 宽度 大 概 
在 70nm 左 右 。 相 应 的 磁头 体积 需要 变 小 ， 精 度 也 要 
提升 。 

如 图 11-71 所 示 ， 垂 直 记录 的 磁 畴 变 得 窄 长 、 
直立 ， 磁 极 指向 垂直 于 盘面 。 而 水 平 记录 的 磁 畴 扁 
平 ， 磁 极 指向 平行 于 盘面 。 那 么 人 们 是 用 什么 手段 
将 磁 畴 变 成 直立 形状 的 呢 ? n EE 11-72 т, ЗЕН 
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图 11-70 读 头 、 盘 片 表面 的 磁道 在 磁力 显微镜 下 的 照片 
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图 11-71 水 平 记录 与 垂直 记录 原理 对 比 
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记录 盘面 的 磁性 介质 层 下 方 被 加 入 了 一 个 新 的 铺垫 
层 ， 同 时 写 头 的 形状 也 发 生 了 变化 ， 一 头 变 得 更 
尖 ， 另 一 头 相 比 则 很 宽 ， 这 样 ， 尖 头 附 近 的 磁场 线 
很 集中 ， 方 向 垂直 盘面 ， 且 磁力 很 强 ， 但 是 磁场 线 
走 到 宽 头 的 时 候 变 得 很 分 散 ， 磁 力 减 弱 。 经 过 这 样 
的 设计 ， 就 可 以 保证 尖 头 下 方 的 磁 畴 沿 着 与 盘面 垂 
直 的 方向 被 磁化 ， 而 宽 头 下 方 由 于 磁场 线 发 散 ， 磁 
力 很 绊 ， 所 以 其 下 方 的 磁 畴 并 不 会 被 磁化 。 这 就 相 
当 于 用 一 个 单 极 磁头 来 磁化 一 个 磁 畴 区 域 。 相 比 之 
下 ， 采 用 水 平 记录 技术 的 写 头 其 两 极 宽度 相同 ， 写 
头 对 准 的 是 一 个 平 躺 的 磁 畴 区 域 ， 同 时 磁化 该 区 
域 的 两 极 ， 写 头 的 磁场 线 接近 平行 而 不 是 垂直 于 
盘面 。 

至 此 ， 你 可 能 也 会 很 好 奇数 据 写 入 的 过 程 与 磁 畴 
磁化 过 程 之 间 的 具体 关联 关系 是 怎样 的 。 图 11-73 给 出 
了 答案 。 如 图 11-73 左 侧 所 示 ， 假 设 要 将 其 中 的 二 进 制 
0 改 为 1， 那 么 需要 将 中 间 的 磁 畴 进行 翻转 ， 反 转 后 如 
图 11-73 中 间 所 示 。 但 是 此 时 问题 来 了 ， 之 前 的 二 进 制 
1 被 误伤 了 ， 它 变 成 了 0， 因 为 中 间 的 磁 哮 翻转 ， 导 致 
它 与 右 侧 磁 畴 之 间 的 原 有 关系 也 顺带 发 生 了 翻转 。 怎 
么 解决 ? 那 就 只 能 把 被 误伤 而 翻转 的 数据 再 改 回 之 前 
的 值 ， 所 以 需要 将 最 右 侧 的 磁 暑 再 次 进行 翻转 ， 最 终 
为 右 侧 所 示 的 状态 。 

随 之 而 来 的 问题 是 ， 硬 盘 怎 么 知道 被 误伤 的 数 
据 之 前 的 值 是 多 少 ? 这 好 办 ， 写 入 数据 之 前 ， 先 
将 数据 读 出 保存 在 缓存 中 不 就 可 以 了 么 。 可 以 ， 
但 是 这 样 做 很 低 效 ， 写 前 需要 读 一 次 ， 性 能 无 法 接 
受 。 实 际 的 解决 办 法 是 : 不 能 够 只 写 入 1 位 ， 要 改 
就 整个 扇 区 4096 位 一 起 写 入 。 比 如 扇 区 之 前 内 容 为 
00001000…， 要 改 为 00001100…， 只 改 了 1 位 ， 即 
- 便 如 此 ， 也 需要 将 整个 4096 位 内 容 发 送 给 磁盘 
FE 磁盘 将 该 扇 区 内 容 整体 重新 全 部 用 新 的 数据 覆盖 写 

522 入 ， 就 可 以 解决 上 述 问题 。 还 有 一 个 疑问 是 ， 当 写 
入 某 个 扇 区 最 后 一 位 时 ， 该 位 与 下 一 个 扇 区 的 首位 
之 间 难 道 没有 关联 么 ? 不 会 误伤 下 一 个 扇 区 的 首位 
Z? 不 会 。 因 为 扇 区 和 扇 区 之 间 会 保留 一 段 间 阶 ， 
这 个 间隙 中 是 垃圾 数据 ， 所 以 间隙 两 端的 比特 不 管 
怎么 翻转 ， 都 不 会 相互 牵连 。 所 以 ， 磁 盘 的 最 小 IO 
单位 就 是 一 个 扇 区 ， 你 只 能 向 磁盘 发 送 扇 区 整数 倍 
的 IO 请 求 。 

有 个 段子 说 得 好 : 给 你 介绍 了 个 对 象 ， 明 天 下 
午 两 点 去 相亲 ! 94! 这 就 像 : 我 有 512 字 节 /4096 
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11-73 ”数据 写 入 过 程 与 磁 畴 翻转 过 程 的 关联 关系 
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位 的 数据 要 保存 ， 帮 有 我 保存 一 下 。 好 嘲 ! 缺 了 什 
Z? 缺 了 地 点 。 你 起 码 要 告诉 硬盘 ， 把 这 4096 位 
保存 在 盘 片 的 哪个 盘面 、 哪 个 磁道 上 的 哪个 扇 
区 。 对 于 早期 的 硬盘 ， 在 指令 中 需要 明确 给 出 柱 
ІН (Cylinder) 、 磁 道 (Track) MK (Sector) 
号 ， 如 图 11-74 所 示 。 每 个 盘面 相同 半径 值 处 的 磁 
道 组 成 了 一 个 柱 面 ， 先 定位 到 对 应 的 柱 面 (磁头 
摆动 到 对 应 半径 值 处 ) ， 然 后 选择 要 读 取 的 该 柱 
面 的 哪个 磁道 〈 或 者 说 哪个 磁头 下 方 的 磁道 ， 控 
制 电路 选择 对 应 的 磁头 ， 做 好 准备 ) ， 然 后 等 待 
对 应 扇 区 转 到 磁头 下 方 ， 就 开始 读 写 操作 。 所 以 这 
种 三 段 式 寻 址 方式 又 被 称 为 Cylinder->Head->Sector 
CCHS) 寻 址 方式 ， 其 实说 它 是 CT (Track) S 也 
不 是 不 可 以 。 

在 后 来 的 标准 中 ， 指 令 中 只 需要 给 出 LBA 
(Logical Block Address) 号 即 可 ， 每 个 LBA 号 
表示 一 个 扇 区 ，LBA 号 线性 增长 。 至 于 某 个 LBA 
对 应 的 柱 面 、 磁 道 、 扇 区 号 ， 则 由 硬盘 内 部 固件 
自己 去 根据 映射 关系 计算 出 来 ， 外 部 程序 无 须 
关心 。 

前 文中 介绍 了 磁头 是 如 何 定位 到 具体 扇 区 
的 〈 读 头 不 停 地 感受 扇 区 头 部 的 元 数据 信息 并 分 
析 ， 见 图 11-74 中 间 ) 。 但 是 磁头 又 是 如 何 定位 到 
片面 上 密密麻麻 的 磁道 的 呢 ? 有 人 说 ， 这 还 不 简 
单 ， 记 录 每 个 磁道 的 半径 距离 不 就 可 以 了 么 ， 想 
要 定位 到 哪个 磁道 ， 就 把 磁头 摆动 到 对 应 半径 距 
离 处 即 可 。 是 的 ， 这 也 是 必须 的 ， 但 是 每 次 磁头 
臂 摆 动 时 会 有 较 大 误差 ， 以 及 惯性 。 由 于 现代 硬 
盘 的 磁道 密度 非常 高 ， 磁 道 很 窗 ， 单 靠 一 次 摆动 
已 经 无 法 正确 定位 了 ， 只 能 摆动 到 大 致 位 置 ， 而 
无 法 一 次 就 定位 到 磁道 正中 央 。 那 就 只 能 根据 对 
应 磁道 周围 的 一 些 地标 信 息 ， 现 场 调节 磁头 臂 做 
多 次 摆动 最 终 精确 定位 。 

如 图 11-75 所 示 ， 盘 面 上 并 非 只 有 用 户 数 据 ， 
还 存在 一 些 协助 磁头 定位 的 地 标 信息 ， 比 如 磁道 
号 /地 址 ， 以 及 协助 磁头 如 何 定位 到 对 应 磁道 的 正 
中 央 的 位 置 的 精确 纠偏 信息 。 存 有 这 些 信息 的 区 
域 被 称 为 伺服 区 (Servo Area) ， 如 图 左 侧 的 白 
色 区 域 所 示 。 不 同 厂商 、 型 号 硬盘 在 每 个 盘面 上 
安放 的 伺服 区 数量 可 能 不 同 ， 一 般 来 讲 ，SAS 企 
业 级 硬盘 大 概 有 400 个 左右 ， 而 SATA 硬 盘 则 只 有 
200 个 左右 。 当 盘 片 旋转 时 ， 读 头 不 断 地 以 固定 
频率 感受 到 这 些 地 标 信息 ， 就 可 以 根据 其 中 的 内 
容 计算 出 当前 磁头 所 在 的 绝对 位 置 。 

伺服 区 内 主要 存放 两 部 分 数据 ， 一 种 是 用 于 磁 
头 纠偏 的 burst〈 脉 冲 ) 信号 区 ， 另 一 种 则 是 当前 磁 
道 的 磁道 号 (磁道 地 址 ) ， 如 图 11-75 右 侧 以 及 图 
11-76 所 示 。 


11-74 柱 面 、 磁 道 、 扇 区 的 结构 示意 图 
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图 11-75 盘面 上 的 伺服 信息 
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图 11-76 ”伺服 区 内 部 的 地 址 和 纠偏 信号 在 磁力 显微镜 下 的 布局 


提示 > 


你 不 禁 要 问 了 ， 即 便 磁头 依靠 这 些 坐 标 信号 精 
确定 位 到 某 个 磁道 和 该 区 ， 那 么 对 于 接 下 来 的 数据 读 
取 过 程 ， 磁 头 是 如 何 精确 知道 它 在 什么 时 候 需要 对 读 
头 切割 磁场 线 产生 的 电信 号 做 采样 ? 也 就 是 说 ， 磁 头 
如 何 精准 地 知道 什么 时 候 它 的 下 方 是 一 个 磁 哮 ? 实际 
上 ， 写 头 在 写 入 数据 的 时 候 ， 并 不 是 每 个 位 每 次 写 入 
都 在 同一 个 精确 位 置 的 ， 当 磁头 定位 到 遍 区 头 部 之 
后 ， 需 要 在 一 定时 间 内 开始 向 写 头发 送 磁化 信号 ， 将 
整个 扇 区 的 4096 个 磁 时 区 域 重 新 按照 新 的 数据 磁化 一 
遍 ， 这 将 覆盖 之 前 的 排 布 ， 而 磁 时 在 新 的 排 布下 的 位 
置 可 能 与 之 前 的 排 布 在 允许 范围 内 略 有 偏差 。 也 就 是 
说 ， 每 次 写 入 一 个 扇 区 时 ， 相 当 于 将 之 前 扇 区 中 全 部 
磁性 排 布 重新 抹 了 一 遍 ， 之 前 的 磁 时 布局 灰飞烟灭 。 
甚至 每 次 写 入 的 时 候 ， 磁 畸 之 间 的 间隔 也 可 能 不 同 ， 
甚至 同一 个 扇 区 内 部 有 些 磁 暑 间距 大 ， 有 些小 ， 整 个 
扇 区 的 物理 容量 会 留 有 一 定 的 余 量 来 容忍 这 些 误差 ， 
也 就 是 扇 区 和 扇 区 之 间 的 空 队 区域 。 那 么 如 果 每 次 写 
入 的 磁 畸 布局 都 不 同 ， 在 读 取 这 些 信 号 的 时 候 ， 磁 头 
就 无 法 精准 知道 它 下 方 从 什么 时 候 开始 会 遇 到 第 一 个 
位 以 及 后 续 位 的 精确 位 置 ， 但 是 这 其 实 并 不 影响 ， 磁 
头 后 方 的 采样 电路 是 持续 对 信号 进行 采样 的 ， 而 不 是 
等 到 某 个 磁 暑 转 到 磁头 下 方才 启动 采样 ( 事实 上 后 方 
电路 也 根本 不 知道 什么 时 候 哪 个 磁 畸 会 转 到 磁头 下 
方 ) 。 采 样 电路 的 采样 频率 只 要 高 过 磁 时 的 交替 所 产 
生 的 电流 振荡 就 可 以 ， 实 际 上 读 头 切割 磁场 线 产生 的 
是 模拟 信号 ， 后 端 用 ADC 对 这 些 模拟 信号 进行 采样 ， 


这 个 过 程 就 像 录 音 一 样 ， 只 不 过 波形 比 声音 要 简单 多 
了 ， 然 后 利用 数字 电路 对 这 些 量化 后 的 数字 信号 进行 
译 码 而 产生 最 终 的 比特 流 数据 。 所 以 ， 不 管 当初 写 入 
的 时 候 盘 片上 的 磁 畴 形成 的 布局 相 比 之 前 有 多 大 偏 
Ж, 甚至 间隔 不 均匀 ， 都 不 会 影响 数据 读 取 。 


有 各 种 不 同样 式 的 纠偏 信号 ， 除 了 和 斜 线 状 信号 ， 

还 有 如 图 11-77 所 示 的 交替 排列 的 样式 。 图 中 左上 角 是 
该 样式 的 磁力 显微镜 下 的 布局 。 图 中 右 侧 所 示 为 其 基 
本 纠偏 原理 。 如 果 磁 头 位 于 位 置 1， 也 就 是 3 号 磁道 的 
正中 央 ， 那 么 读 头 会 感受 到 A 信 号 的 磁场 强度 最 强 

而 D 和 C 信 和 号 强度 弱 于 A 且 相等 ，B 信 号 几乎 感受 不 
到 。 磁 头 位 于 不 同位 置 ， 会 感受 到 不 同 的 ABCD4 种 信 
号 的 强度 组 合 ， 根 据 这 个 组 合 ， 再 根据 地 址 区 域 的 磁 
道 号 ， 就 可 以 动态 调节 磁头 臂 位 置 向 精确 地 点 靠拢 ， 
靠拢 的 同时 ， 读 头 持续 感受 地 标 信 号 ， 持 续 形成 反馈 
调节 ， 最 终 精 确定 位 。 


BH HE, 上 面 什么 信息 都 没有 ， 需要 在 其 
上 画 上 磁道 、 伺 服 区 等 结构 。 磁 盘 的 低级 格式 化 过 
程 ， 就 是 磁盘 内 部 固件 启动 一 个 低级 格式 化 程序 ， 
将 扇 区 头 部 信息 、 校 验 信息 等 预先 写 入 到 硬盘 上 ， 
从 而 现场 画 出 一 条 条 磁道 ( 注意 ， 磁 道 位 置 并 不 是 
固定 的 ， 每 次 低 格 获得 的 磁道 位 置 可 能 有 微小 的 不 
同 ， 因 为 磁头 摆动 一 定 的 距离 ， 每 次 总 是 有 误差 
的 ， 这 也 是 为 什么 需要 伺服 信息 纠偏 的 原因 ) 。 然 
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后 将 新 的 伺服 区 信息 写 入 ， 最 终 完成 低级 格式 化 操 | 
作 ， 低 格 必 然 导 致 硬盘 数据 全 部 丢失 。 所 谓 硬盘 的 
高 级 格式 化 过 程 ， 则 是 指 文件 系统 向 硬盘 扇 区 中 写 
入 文件 系统 元 数据 的 过 程 ， 硬 盘 根 本 感知 不 到 高 级 
格式 化 ， 对 于 硬盘 来 讲 ， 高 级 格式 化 也 只 不 过 是 接 
收 并 执行 一 批 O 操 作 而 已 。 硬 盘 并 不 关心 外 部 程序 
往 它 的 哪个 扇 区 放 什么 东西 。 | 

后 方 遭 受 固态 硬盘 的 紧 逼 ， 机 械 磁 盘 厂 商 似乎 也 加 
紧 了 研发 速度 ， 机 械 盘 的 容量 近 几 年 迅速 提升 。 提 升 硬 
盘 容 量 无 非 从 三 个 角度 来 切入 : 容纳 更 多 的 碟 片 ， 将 磁 
畴 体积 变 小 同时 磁头 精度 提升 ， 将 磁道 间距 变 罕 。 

如 图 11-78 左 侧 所 示 为 Shingled Magnetic Recording 
(SMR， 瓦 片 式 磁 记 录 ) 原理 示意 图 。SMR 的 设计 
思路 是 : 将 磁道 间距 变 窗 ， 甚 至 重 登 在 一 起 ， 比 如 在 
低 格 的 时 候 ， 低 格 好 1 号 磁道 后 ， 将 2 号 磁道 覆盖 住 1 
号 磁道 一 部 分 ， 同 理 ，3 号 磁道 也 覆盖 住 2 号 磁道 一 部 
分 。 这 和 将 磁道 变 窗 并 没有 本 质 区 别 ， 但 是 磁道 变 罕 
要 求 磁头 体积 也 变 小 。 而 SMR 可 以 使 用 现 有 磁头 尺 
寸 通过 上 述 方式 ， 低 格 时 故意 将 磁道 重 琶 地 画 出 来 。 
由 于 读 头 比较 小 ， 读 头 只 需要 感受 每 个 磁道 未 被 覆盖 
的 那 块 的 磁 信 号 即 可 读 出 数据 。 但 是 由 于 写 头 体积 较 


大 ， 当 写 入 2 号 磁道 时 ， 会 误伤 1 号 磁道 的 内 容 。 读 到 
这 里 你 好 像 隐约 回想 起 来 什么 ， 是 的 ， 你 会 想起 图 
11-73 中 的 场景 。 而 解决 办 法 也 惊人 的 相似 ， 要 么 在 写 
入 前 将 即将 被 误伤 的 数据 读 出 来 暂 存 ， 写 完 后 再 覆盖 
回去 ， 要 么 就 将 硬盘 的 IO 粒度 增 大 ， 比 如 如 果 最 多 
允许 16 个 磁道 县 加 覆盖 〈 这 就 像 人 为 划分 扇 区 一 样 ， 

不 可 能 让 所 有 磁道 都 一 层 层 覆盖 ， 那 样 的 话 就 必须 将 
所 有 磁道 上 即将 被 覆盖 的 数据 读 出 ， 性 能 无 法 接受 。 

多 个 层 层 覆 盖 的 磁道 组 成 一 个 Zone，Zone 之 间 不 产生 
覆盖 ) ， 那 么 就 要 求 IO 单位 是 16 个 磁道 的 整数 倍 ， 

而 这 个 做 法 显然 行 不 通 ， 因 为 UO 粒度 太 大 。 所 以 就 
只 能 采用 前 一 种 做 法 了 ， 所 以 SMR 硬 盘 不 适合 随机 
写 入 操作 ， 但 是 却 非常 适合 那 种 写 一 次 、 读 多 次 的 场 
景 ， 比 如 视频 网 站 、 网 盘 之 类 ， 数 据 被 保存 后 不 会 被 
更 改 ， 只 会 被 删 掉 或 者 不 断 地 读 取 ， 而 读 取 操 作对 于 
SMR 盘 而 言 是 没有 性 能 问题 的 。 

要 想 更 高 效 地 利用 SMR 盘 存 取 数据 ， 就 需要 上 层 
主动 感知 底层 的 这 种 限制 ， 然 后 从 上 层 数据 布局 方面 
主动 规避 SMR 盘 的 限制 。 所 以 ，SMR 支 持 一 种 被 称 为 
Host Managed 的 运行 模式 ， 此 时 SMR 盘 的 数据 布局 完 
全 受 Host 端 程序 控制 ， 而 如 果 运 行 在 Device Managed 
模式 下 ， 则 SMR 盘 对 上 层 完全 透明 ， 与 传统 硬盘 的 
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图 11-77 交替 排列 样式 的 纠偏 信息 及 其 纠偏 原理 
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指令 和 数据 接口 完全 相同 ， 但 是 在 随机 写 场景 下 性 能 
会 有 较 大 下 降 。 还 有 一 种 Host Aware 模 式 ， 由 Host 向 
SMR 盘 发 送 一 些 辅助 提示 建议 信息 ， 而 SMR 盘 根据 这 
些 信 息 来 决定 数据 的 布局 和 读 写 过 程 。 为 了 支持 Host 
Managed 以 及 Host Aware 两 种 模式 ，SMR 盘 提供 了 一 
些 特殊 IO 指令 ， 这 些 指 令 被 作为 SCSI 指 令 集 的 扩展 
纳入 SCSI 标 准 中 。 也 正 因 如 此 ，SMR 盘 目前 虽然 已 经 
量 产 ， 但 是 并 未 普及 ， 因 为 上 层 软 件 需要 兼容 这 些 指 
令 ， 这 对 现 有 生态 的 改变 较 大 ， 阻 力 自然 也 大 。 


冬瓜 哥 还 拥有 一 项 用 于 优化 SMR 盘 性 能 的 专 
利 : US9257144。 该 专利 从 优化 数据 布局 切入 ， 能 
够 一 定 程度 上 绕 过 SMR 的 劣势 。 有 兴趣 的 朋友 可 以 
阅读 一 下 。 


再 来 看 看 图 11-79 右 侧 所 示 的 BPMR (Bit Pattern 
Magnetic Recording) 技术 。 前 文中 介绍 过 ， 硬 盘 上 
每 个 位 完全 靠 磁头 磁化 一 堆 磁 畴 ， 而 这 一 堆 磁 畴 的 形 
状 、 面 积 都 是 随机 的 ， 虽 然 总 体 上 不 会 超过 一 定 尺 
sp, 但 是 这 种 设计 仍然 比较 浪费 空间 。BPMR 将 磁性 
颗粒 固定 在 盘面 上 ， 相 当 于 把 原本 空白 纸 强行 画 上 格 
子 ， 每 个 格子 保存 1 位 。 这 样 就 可 以 更 规整 ， 有 助 于 
进一步 提升 容量 。 
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如 图 11-79 右 侧 所 示 为 BPMR 记 录 格 式 在 磁力 显 微 
镜 下 的 照片 。 如 图 11-80 所 示 为 BPMR 格 式 下 采用 的 独 
立 伺服 区 示意 图 。 

将 磁 畴 做 的 越 来 越 小 就 能 够 提升 密度 。 有 一 种 材 
料 可 以 将 密度 做 高 ， 但 是 代价 是 它 在 常温 下 的 磁 阻 太 
高 ， 无 法 被 磁化 。 然 而 它 在 高 温 下 却 可 以 被 顺利 磁化 。 
为 此 ， 人 们 发 明了 HAMR 技 术 。 如 图 11-81 中 间 所 示 为 
HAMR (Heat Assisted Magnetic Recording， 热 辅助 磁 记 
录 ) 技术 原理 ， 其 基本 思路 是 在 磁头 上 加 上 一 个 激光 
器 为 磁头 下 方 的 介质 加 热 。 但 是 这 种 技术 有 一 些 缺 点 ， 
比如 加 热 温度 在 400 一 700C 之 间 ， 这 就 要 求 提升 盘 片 
对 高 温 的 耐 受 力 ， 以 及 硬盘 腔 体内 的 散热 设计 更 加 复 
杂 。 于 是 又 有 人 发 明了 MAMR 技 术 ， 如 图 11-81 右 侧 所 
示 ， 其 采用 另 一 种 材料 ， 该 材料 可 以 采用 微波 方式 来 
加 热 让 其 磁 阻 降低 。HAMR 和 MAMR 技 术 据说 可 以 在 
2023 一 2025 年 左右 把 机 械 硬盘 单 盘 容量 提高 到 40TB。 

截止 到 当前 ， 容 量 最 高 的 非 SMR 盘 为 东芝 在 2018 
年 初 发 布 的 14TB、9 碟 装 、 充 氨 硬 盘 。 该 硬盘 依然 使 用 
PMR 垂 直 记 录 技 术 碟 片 。 转 速 为 7200 转 /分 钟 ， 并 配备 
256MB 的 缓存 。 采 用 SATA 6Gb/s 接 口 。 性 能 方面 14TB 的 
读 写 速度 峰值 为 260MB/s， 而 12TB 的 型 号 为 250MB/s， 
MTBF (Mean Time Between Failure， 平 均 无 故障 时 间 ) 
是 250 万 小 时 ， 质 保 期 年， 如 图 11-82 所 示 。 

得 益 于 充 氨 技术 ， 东 芝 这 款 硬盘 可 比 上 一 代 产 品 


图 11-79 BPMR 记 录 格 式 与 传统 格式 对 比 
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产品 特征 


14TB 和 12TB 容量 型 号 
创新 型 9 磁盘 氨 气 密封 设计 带 来 卓越 的 存 
C 
业界 标准 尺寸 : 3.5 英寸 26.1 mm 
* 7,200 RPM 高 性 能 
* 6.0 Gb/ 秒 SATA 接口 
低 运 行 功 耗 ， 提 供出 色 的 功率 
(WTB) ， 优 化 TCO т кр 
° 工作 负载 率 : 每 年 共 传输 550 TB 产品 应 用 
* 512e 或 4Kn 格式 扇 区 技术 ; (512e 4 云 级 别 存 储 基础 
型 号 ) 包括 : 具有 防 断 电 、 数 据 丢 失 保 护 Ee 
功能 的 东芝 持久 写 入 缓存 技术 - 软件 定义 的 数据 中 心 基础 设施 
文件 和 对 象 存储 基础 设施 
中 线 / 近 线 存储 的 关键 业务 型 工作 负载 
第 2 级 关键 业务 型 服务 器 和 存储 系统 
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堆 营 更 多 的 碟 片 ， 使 最 大 容量 增加 了 40%。 在 装 入 如 ”期 内 不 会 泄漏 掉 。 由 于 整个 硬盘 处 于 密封 状态 ， 所 以 
此 多 的 矶 片 后 ， 非 充 氨 硬盘 内 空气 环境 将 无 法 满足 设 。 其 可 以 用 于 液 冷 场景 ， 也 就 是 将 整个 服务 器 系统 连同 


计 和 需求。 氨 气 的 密度 和 膨胀 率 比 空气 低 得 多 ， 所 以 使 《硬盘 一 同 浸泡 在 导热 绝缘 液体 中 。 
得 磁 碟 的 空气 阻力 也 更 低 ， 可 以 更 好 地 控制 功 耗 以 及 东芝 这 一 代 硬 盘 采 用 GMA 致 动 技术 ， 如 图 11-83 


散热 。 对 应 的 代价 则 是 需要 将 盘 体 密封 起 来 。 得 益 于 ”所 示 。 硬 盘 磁 头 臂 被 安置 在 一 个 转轴 上 ， 其 尾部 依靠 
镭射 封装 技术 ， 这 款 硬盘 可 以 确保 氮气 在 整个 生命 周 — 音 圈 电机 实现 精确 步 进 。 但 是 随 着 碟 片 磁道 密度 不 断 
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提升 ， 单 单 依靠 该 主轴 已 经 无 法 做 到 精确 同时 迅速 的 
定位 。 而 DSA (Dual Stage Actuator) 技术 在 磁头 臂 前 
端 增加 了 一 个 微调 定位 部 件 ， 这 样 经 过 主轴 和 微调 部 
件 共同 作用 可 以 实现 更 加 精确 的 迅速 的 定位 。 而 DSA 
的 升级 版 GMA 技术 ， 则 将 该 微调 部 件 做 得 更 加 小 而 
精 ， 进 一 步 提高 了 定位 精度 ， 可 以 满足 本 代 硬 盘 的 磁 

机 械 硬 盘 长 期 以 来 的 一 个 性 能 瓶颈 就 在 于 它 同 一 
时 刻 只 能 执行 一 个 IO， 不 具备 并 行 性 ， 其 在 随机 IO 
场景 下 吞吐 量 很 低 。 其 原因 是 磁头 只 能 摆动 到 并 读 写 
一 个 位 置 。 虽 然 磁头 臂 上 有 一 组 磁头 ， 但 是 这 些 磁头 
无 法 各 自 摆动 到 不 同位 置 。 

目前 也 有 厂商 推出 了 具有 双 磁 头 臂 组 ， 每 个 磁头 
臂 组 可 以 独立 摆动 的 磁盘 系统 ， 如 图 11-84 所 示 。 理 论 
上 其 随机 IO 的 吞吐 量 可 翻 倍 。 


п-ва ”具有 双 磁 头 臂 组 的 磁盘 


11.2.4.2 固态 硬盘 


第 3 章 的 3.4.2.3 节 介绍 过 Flash 闪 存 介质 的 存储 原 
理 ， 可 以 回顾 一 下 。 固 态 硬盘 (Solid State Disk, 
SSD) 就 是 利用 Flash 而 不 是 磁 碟 作为 存储 介质 。 固 态 
硬盘 内 部 完全 不 包含 机 械 部 件 ， 全 是 电子 部 件 ， 其 性 
能 也 远 高 于 机 械 磁盘 。 

如 图 11-85 左 侧 所 示 为 SSD 硬 盘 的 基本 架构 。 其 
架构 与 AS HBA/RAID 控 制 器 架构 基本 类 似 〈 见 第 7 
章 7.4.3.9 节 ) ， 只 不 过 SAS 控 制 器 采用 多 个 后 端 SAS 
通道 控制 器 连接 了 SAS 硬 盘 或 者 SAS Expander， 承 载 
SAS 协 议 ， 而 SSD 控 制 器 后 端 则 采用 多 个 Flash 通 道 
控制 器 连接 着 多 片 Flash 颗 粒 ， 通 道上 承载 的 是 ONFI 
(Open NAND Flash Interface) /Toogle 协 议 。 也 就 是 
说 ，SAS HBA 从 Host 端 接收 SCSI 指 令 封包 ， 而 向 后 
端 硬盘 传递 的 也 是 SCSI 指 令 ; 但 是 SSD 主 控 从 Host 
端 接收 的 是 SCSI/ATA/NVMe 指 令 ， 但 是 向 后 端 Flash 
颗粒 传递 的 却 是 ONFIToogle 指 令 ， 这 个 指令 转换 动 
作 由 固件 和 Flash 通 道 控制 器 共同 完成 ， 前 者 将 Host 
端 指令 翻译 成 对 Flash 通 道 控制 器 的 操作 码 并 写 入 到 
后 者 的 控制 寄存 器 中 ， 后 者 则 负责 封装 具体 的 ONFI/ 
Toogle 总 线 消 息 、 指 令 发 送 给 Flash 芯 片 。 你 可 以 这 
样 理解 : 每 个 SSD 盘 都 相当 于 一 个 HBA+ 一 堆 盘 片 
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(Flash 颗 粒 ) ， 其 主 控 性 能 其 实 要 比 SAS НВА 
更 强 ， 因 为 它 需 要 发 挥 出 Flash 的 性 能 。 

ONFI/Toogle 通 道 目 前 属于 共享 总 线 型 ， 这 意味 
着 每 个 通道 上 同一 时 刻 只 有 一 片 Flash 可 以 与 通道 控制 
器 交互 ， 答 案 是 这 并 不 意味 着 其 他 Flash 就 闲 着 ， 通 道 
控制 器 可 以 先后 向 通道 上 的 多 个 Flash 发 送 命令 ， 让 它 
们 并 行 地 读 写 数据 ， 当 读 出 的 数据 被 缓存 在 Flash 内 部 
的 缓冲 区 之 后 ， 通 道 控 制 器 此 时 可 以 批量 地 收割 这 些 
数据 ， 将 其 拿 回 并 缓存 在 SSD 主 控 的 DDR RAM 中 ， 
主 控 再 择机 将 其 DMA 到 Host 端 的 RAM 中 ， 这 个 过 程 
可 见 第 7 章 图 7-231。 

所 以 ， 共 享 总 线 并 不 会 制约 总 线 上 各 个 设备 同 
时 工作 ， 它 只 是 制约 了 数据 传送 时 的 并 行 性 ， 但 这 并 
不 会 影响 最 终 性 能 ， 因 为 多 个 设备 同时 传送 数据 ， 与 
一 个 设备 传 一 段 时 间 再 切换 到 另 一 个 设备 继续 传送 相 
比 ， 整 体 吞 吐 量 并 不 会 有 太 大 区 别 ， 不 过 对 每 个 设备 
体验 到 的 时 延 的 确 是 有 影响 的 。 关 于 时 延 、 并 发 、 队 
列 的 相关 性 可 参考 第 4 章 开头 部 分 。 通 常 比较 低 端的 
SSD 只 采用 一 个 通道 来 挂 接 一 片 或 者 数 片 Flash， 而 档 
次 和 性 能 越 高 的 SSD， 其 通道 数量 和 每 个 通道 挂 接 的 
Flash 芯 片 数 量 越 多 ， 因 为 这 样 可 以 有 更 好 的 并 行 性 。 


ONFLToogle 通 道 总 线 是 一 个 不 对 等 总 线 ， 通 道 
控制 器 一 端 总 拥有 主动 权 。Flash 世 片 将 数据 读 出 或 
者 写 入 之 后 ， 会 将 它 的 busy 信 号 拉 高 ， 此 时 通道 控 
制 器 一 端 便 可 让 Flash 将 数据 传送 出 来 ( 读 ) ,或 者 
再 次 派发 一 个 指令 让 Flash 执 行 。Flash 世 片 一 端 不 能 
擅自 传送 数据 ， 只 能 是 举 手 等 待 被 选中 。 


如 图 11-85 右 侧 所 示 为 Flash 芯 片 内 部 的 架构 。 实 
际 上 ，Flash 芯 片 本 身 也 是 一 个 独立 的 计算 机 ， 它 有 
自己 的 前 端 通道 接口 〈 连 接 到 ONFIToogle 总 线 ) ， 
有 自己 的 核心 控制 逻辑 ， 有 自己 的 后 端 接口 (连接 到 
Flash Cell 阵 列 ) 。 它 从 前 端 ONFIToogle 总 线 上 接收 
指令 ， 通 过 核心 控制 逻辑 译 码 成 对 Flash Cell 的 各 种 操 
作 码 ， 最 终 Flash Cell 将 对 应 数据 读 出 放置 到 缓冲 中 ， 
核心 控制 器 逻辑 向 前 端 总 线 举 手 示意 。 

由 于 NAND Flash 的 Page 不 能 被 覆盖 写 入 ， 必 须 
先 擦 除 后 写 入 ， 而 频繁 擦 除 又 会 影响 Flash Cell 的 寿 
命 ， 于 是 SSD 主 控制 器 固件 的 普遍 做 法 是 每 次 都 将 数 
据 写 入 空闲 的 Page， 然 后 使 用 一 张大 的 映射 表 来 记 
录 罗 辑 页 面 号 与 物理 页 面 号 的 关系 ， 然 后 在 后 台 使 
用 各 种 优化 的 算法 在 最 佳 的 时 机 批量 对 那些 旧 Page 
进行 擦 除 操作 实际 上 是 整 块 Block 擦 除 ) 将 其 变 成 
空 闪 Block/Page。 这 张 映射 表 需 要 频繁 的 更 新 ( 写 
入 数据 时 ) 、 查 询 ( 读 取 数 据 时 ) ， 所 以 必须 将 其 
放 入 RAM 中 。 在 图 11-86 中 可 以 看 到 罕 长 形 的 DDR 
RAM 芯 片 。 
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随 之 而 来 的 一 个 问题 就 是 一 旦 掉 电 ，RAM 中 的 映 
射 表 就 会 丢掉 。 为 了 解决 这 个 问题 ， 通 常 SSD 内 部 会 
使 用 电容 来 在 掉 电 后 提供 一 定时 间 的 持续 供电 ， 如 图 
11-86 右 侧 所 示 的 橙色 电容 阵列 。 这 些 电容 可 以 保证 掉 
电 后 能 够 继续 提供 一 段 时 间 的 电量 从 而 让 主 控 将 RAM 
中 的 数据 批量 写 入 Flash 中 保存 。 映 射 表 的 尺寸 大 概 为 
SSD 容 量 的 1%， 这 意味 着 1TB 的 SSD 会 有 1GB 的 映射 
表 ， 就 至 少 需要 1GB 板 载 KAM 来 盛 放 。 然 而 随 着 目前 
SSD 容 量 越 来 越 大 ， 市 面 上 已 经 出 现 高 于 10TB 容 量 的 
SSD， 此 时 需要 10GB 的 RAM 来 盛 放映 射 表 ， 这 个 成 
本 就 显得 很 高 了 。 另 外 一 个 问题 是 ， 将 10GB 的 RAM 
数据 写 入 Flash 的 过 程 ， 需 要 较 长 的 时 间 ， 板 载 电容 的 
体积 根本 无 法 满足 要 求 。 

解决 上 述 问 题 的 方法 是 ， 提 供 少量 的 RAM， 映 
射 表 平时 放 在 Flash 中 ， 而 只 把 映射 表 的 一 部 分 载 入 
RAM， 现 用 现 载 入 ， 开 发 高 效 的 替换 算法 保证 映射 
表 的 命中 率 。 还 有 一 种 办 法 是 ， 将 物理 页 号 对 应 的 逻 
辑 页 号 跟随 一 起 写 入 物理 页 中 ， 也 就 是 将 整个 映射 表 
分 散 存 放 在 每 个 物理 页 尾部 ， 而 不 是 集中 存放 。 掉 电 
后 ， 只 需要 将 RAM 中 已 经 向 Host 端 发 送 了 Ack 但 是 尚 
未 写 入 Flash 的 那些 物理 页 写 入 Flash 即 可 。 再 次 加 电 
后 ， 主 控 扫 描 所 有 物理 页 ， 读 出 其 中 保存 的 逻辑 页 
号 ， 在 RAM 中 重 构 出 整个 映射 表 。 这 样 就 可 以 降低 
RAM 和 电容 量 的 需求 。 

SSD 一 般 不 会 像 SAS RAID 卡 那样 缓存 大 量 的 
数据 ， 因 为 后 者 通常 带 有 较 大 容量 的 电容 (Super 
Capacitor， 超 级 电容 ， 容 量 在 30F 级 别 ) ， 而 SSD 作 
为 要 插入 到 标准 2.5/3.5 英 寸 插 槽 的 设备 ， 其 内 部 空间 
不 足以 携带 如 此 大 的 电容 。 不 过 随 着 Flash 芯 片 制造 
工艺 水 平 越 来 越 高， 目前 2.5 英 寸 SSD 盘 体内 部 会 有 
大 量 剩余 空间 〈 如 图 11-87 所 示 ) ， 完 全 可 以 利用 这 
个 空间 来 放电 容 。 但 是 这 样 做 会 增加 不 少 成 本 。 另 
外 ，SSD 即 便 是 不 采用 缓存 ， 直 接 从 后 端 Flash 上 读 
写 ，RAM 只 作为 临时 数据 缓冲 ， 其 性 能 至 少 在 当前 
已 经 够 用 了 。 
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11-87 某 1TB SSD 内 部 


PCIE 接 口 、 承 载 NVMe 协 议 的 SSD 俗称 NVMe 
SSD) 受到 越 来 越 多 的 关注 和 使 用 。PCIE 链 路 的 高 速 
度 配合 纯粹 为 SSD 打 造 的 VO 指令 集 协 议 NVMe， 好 马 
配 好 鞍 。 然 而 标准 的 PCIE 插 横 很 不 方便 ， 于 是 人 们 设 
计 了 SFF8639 这 种 连接 器 ， 或 者 俗称 U.2 连 接 器 ， 如 图 
11-88 所 示 。 

该 连接 器 最 大 的 一 个 特点 是 可 以 用 一 个 插 权 兼 
容 SAS/SATA/PCIE 这 三 种 信号 ， 也 就 是 说 ，SFF8639 
相当 于 在 原来 的 SAS 连 接 器 上 又 添加 了 承载 4 路 PCIE 
Lane 信 和 号 的 管 脚 ， 把 之 前 连接 器 中 剩余 的 未 被 金 手 指 
占领 的 地 方 全 都 用 起 来 了 。 这 样 ，SAS/SATA 盘 插入 
后 ， 依 然 与 之 前 的 SAS/SATA 管 脚 相连 接 ，SFF8639 
SSD 插 入 后 ， 则 只 与 PCIE 信 和 号 管 脚 连 接 。 但 是 要 做 到 
同一 个 插 槽 能 识别 这 三 种 接口 的 硬盘 ， 服 务 器 内 硬盘 
背 板 就 得 将 SFF8639 的 所 有 管 脚 都 导向 到 正确 的 器 件 
EX. 

如 图 11-89 左 侧 所 示 ， 背 板 最 右 侧 的 4 个 插 槽 同时 
兼容 SAS/SATA/U.2 SSD， 可 以 看 到 该 接口 上 的 SAS/ 
SATA 信 号 被 导向 背 板 上 的 SAS Expander， 而 PCIE 信 
号 则 被 导向 CPU。 但 是 由 于 CPU 距离 硬盘 背 板 距离 太 
长 ， 所 以 需要 使 用 线 绕 把 SFF8639 插 模 上 的 PCIE 信 号 
与 主板 上 的 PCIE 插 槽 信号 连接 起 来 ， 所 以 需要 一 块 


Power, SATA Express екеш) 
PISP1 (15 Pins) 


РС Lanes 3-1, sdeband | БАБЗАТА Exprese PCI Lano 0, ВАСИ 
E317 Ж. А 
3 Рез) 314-88 (7 Pins) (10 Pins) 
Secondary Side 


11-88 ”SFF8639 连 接 器 以 及 转 接 器 和 线 缆 
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转 接 板 一 端 插入 主板 PCIE 插 槽 ， 另 一 端 连接 
背 板 。 转 接 板 上 还 需要 一 片 PCIE 信 和 号 增强 芯 
Hr (PCIE Retimer) 或 者 PCIE Switch (251946 
上 有 更 多 PCIE 信 号 需要 导向 过 来 时 ) 。 图 中 
右 侧 所 示 为 DELLEMC 某 服务 器 上 的 U.2 接 口 
连接 拓扑 。PCIE 信 号 连接 器 目前 普遍 采用 的 
是 MiniSAS HD 连接 器 ， 与 SAS 连 接 器 相同 。 
SFF8639 连 接 器 /接口 又 被 称 为 Trillion Mode 
(Tri-Mode) 三 模式 /三 模 接 口 。 

如 图 11-90 所 示 为 Memblaze〈 忆 恒 创 源 ) 
公司 PBlaze5 系 列 企业 级 NVMe SSD 中 高 端 产 
品 线 规格 一 览 。 该 系列 有 标准 PCIE 卡 和 U.2 盘 
两 种 形态 ， 最 高 容量 可 达 12TB， 最 高 性 能 超 
过 一 百 万 IOPS。 这 份 规格 表 中 的 各 种 规格 是 衡 
量 目前 企业 级 SSD 比 较 完善 的 。 有 几 个 地 方 值 
得 说 一 下 ，U.2 接 口 普 遍 采 用 x4 PCIE 通 道 ， 而 
标准 PCIE 接 口 的 闪存 卡 一 般 采 用 x8 PCIE 通 道 
就 够 了 ， 出 于 成 本 考虑 ， 一 般 不 会 有 用 户 用 到 
16GB/s 的 吞吐 量 。x8 PCIE 通 道 的 理论 带宽 是 
8GB/s， 抛 掉 PCIE 本 身 物理 层 链 路 层 控制 所 消耗 
的 带宽 ，6GB/s 的 吞吐 量 已 经 达到 了 接口 速率 的 
极限 。 

SSD 硬 盘 是 有 写 入 寿命 的 ， 厂 商 一 般 用 这 
种 方式 来 表示 某 个 产品 的 额定 寿命 ， 如 果 每 
天 把 整个 硬盘 容量 写 入 多 遍 的 话 ， 这 样 持续 5 
年 ， 该 盘 能 够 忍受 每 天 写 入 几 遍 。 比 如 PBlaze5 
D916/C916 型 号 SSD 可 以 每 天 写 入 3 遍 。DWPD 
表示 Drive Write Per Day。 

图 11-91 为 该 系列 SSD 的 实物 图 。 可 以 看 
到 它 采 用 了 一 个 较 大 的 铝 电 解 电容 来 负责 掉 电 
保护 。U.2 形 态 的 盘 体 内 采用 软 连 线 连接 的 两 
^ BEEN IUE. ES Et dba. 
DDR RAM 和 少量 NAND Flash， 下 层 板 则 全 部 
都 是 NAND Flash。 

PBlaze5 系 列 SSD 主 控制 器 采用 Microsemi 

( 现 已 被 Microchip 公 司 收 购 ) 公 司 的 高 端 
NVMe 控 制 芯 片 ， 架 构 如 图 11-92 所 示 。 该 主 
控 内 部 采用 16 个 通用 CPU 核 心 ，16/32 个 可 编 
程 Flash 通 道 控制 器 ， 兼 容 各 种 类 型 的 NAND 
Flash。 控 制 器 内 部 还 有 XOR Engine, Buffer 
Manager、List Engine、LDPC 编 解码 器 等 硬 加 
速 逻 辑 电 路 。 所 有 部 件 采 用 NoC 片 上 网 络 ( 详 
见 第 6 章 6.3.3 节 ) 连接 并 通信 。 

PBlaze5 系 列 产品 支持 双 PCIE 端 口 。 比 如 
对 于 x4 通 道 的 2.5 英 寸 NVMe 盘 形态 产品 ， 可 以 
支持 将 x4 通 道 分 成 两 个 x2 通 道 ， 分 别 接 入 两 台 
主机 上 ， 从 而 实现 双 端 口 并 行 访 问 。 这 对 于 双 
控 存储 系统 〈 详 见 下 一 节 介绍 ) 来 说 是 必需 的 
特性 。 
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图 11-89 典型 服务 器 设计 下 的 NVMe 盘 槽 位 及 其 连接 拓扑 
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3 DWPD 


不 可 修复 错误 率 (UBER) 


<10~17 


平均 无 故障 时 间 (MTBF) 


200 万 小 时 


协议 标准 


NVMe 1.2a 


闪存 类 型 


3D eTLC NAND 


支持 操作 系统 


RHEL, SLES, CentOS, Ubuntu, Windows Server, VMware ESXi 


功 耗 


高 级 功能 


TSE 


增强 掉 电 数据 保护 、 热 插 拔 、 全 路 径 数据 保护 、S.M.A.R.T、 灵 活 功 耗 管理 
TRIM、 多 命名 空间 、AES256 自 加 密 、 快 速 启动 、 密 钥 删 除 、 双 端口 
开源 管理 工具 ， 调 试管 理工 具 ， 原 生 驱 动 支持 


图 11-90 Memblaze Pblazes SSD 主流 规格 一 览 


图 11-91 Memblaze 公 司 PBlaze5 系 列 SSD 


PBlaze5 内 部 固件 针对 IO 性 能 做 了 大 量 优化 ， 其 
中 比较 独特 的 一 个 优化 是 QoS (Quality of Service) 。 
由 于 NAND 介 质 的 写 入 和 擦 除 速 度 比 读 取 速度 慢 太 
多 ， 如 果 各 种 IO 类 型 混杂 在 一 起 ， 势 必 导致 性 能 降 
低 ， 最 关键 的 是 导致 性 能 抖动 ， 也 就 是 忽 快 忽 慢 ， 
这 一 点 对 高 IO 压力 的 系统 是 很 致命 的 。 如 图 11-93 所 
示 ，PBlaze5 固 件 会 进行 精细 的 队列 管理 ， 并 根据 IO 
场景 和 当前 的 MO 状态 动态 地 调度 IO 指令 ， 充 分 保障 
系统 的 性 能 及 平稳 度 。 

大 家 可 能 认为 固态 盘 的 单 盘 功 耗 肯定 低 于 机 械 


盘 ， 大 错 特 错 。 目 前 市 场 上 的 14TB 机 械 盘 随机 读 写 
时 功 耗 在 8W 左 右 ， 而 企业 级 NVMe SSD 在 随机 读 写 
时 峰值 功 耗 可 能 要 达到 10 一 25W 左 右 ，25W 这 个 数值 
已 经 接近 了 X8 通 道 PCIE 插 槽 的 额定 功 耗 值 。 估 计 多 
数 人 都 没有 摸 过 高 性 能 U.2 接 口 NVMe SSD 在 加 电 之 
后 的 壳 温 ， 可 以 摸 一 下 ， 虽 然 赶不上 CPU 壳 温 ， 但 是 
基本 上 溪 人 程度 已 经 达到 你 不 能 忍受 3s。 随 着 固态 盘 
容量 、 性 能 越 来 越 高 ， 可 能 很 多 人 都 不 曾 想 到 的 是 ， 
厂商 可 能 届时 不 得 不 为 了 控制 功 耗 而 故意 限制 性 能 ， 
这 就 比较 篮 从 了。Memblaze 已 经 重视 到 该 问题 ， 并 在 
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最 近 发 布 的 PBlaze5 510/516 和 910/916 系 列 中 全 面 实 现 。 是 人 们 设计 了 M.2 这 种 新 型 连接 器 ， 其 尺寸 较 小 ， 可 
了 深度 节能 降 耗 技术 ， 其 能 效 比 可 以 做 到 业界 领先 的 。 以 承载 SATA、PCIE 等 信号 ， 如 图 11-94 所 示 。 就 连 空 
0.20GB/s/W 间 宽 裕 的 PC 目前 也 有 大 量 新 装机 用 户 选择 使 用 M.2 接 


随 着 Flash 芯 片 的 单 片 容量 越 来 越 高 ， 性 能 越 来 越 。 口 的 SSD 了 。 


强 ， 传 统 的 2.5 英 寸 硬盘 的 体积 对 于 移动 终端 设备 比如 前 文 各 种 关系 如 表 11-1 所 示 。 


各 种 Pad、 超 级 本 等 便携 设备 而 言 就 显得 过 大 了 。 于 
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图 11-92 ”Microsemi 的 NVMe 主 控 架 构 
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图 11-93 PBlaze5 SSD 的 QoS 原理 
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表 11-1 各 种 上 层 协议 、 传 输 层 协议 、 接 口 连 接 器 的 关系 


端 到 端 


TCP(over IP) 
RDMA oE/oIB 


Ethernet 
Infiniband 


SCSI over SCSI over SCSI(Phased out) 
SCSI over FC 

SCSI over SAS 

SCSI over TCP/IP over Ethernet (iSCSI) 
SCSI over RDMA over IB(SRP) 

SCSI over TCP/IP over IB 


NVMe( 面 向 固态 盘 ) 


PGIE PCIe standard 
M.2 


SFF8639(U.2) 


NvMe over PCIE over standard interface 
NvMe over PCIE over M.2 
NvMe over PCIE over SFF8639 


ATA 
(For PC Disk Drive) 


IDE 
SATA 
м.2 


ATA over IDE(Phased out) 
ATA over SATA over SATA connector 
ATA over SATA over M.2 connector 


EMMC( 手 机 存储 ) 
UFS( 手 机 存储 ) 


EMMC 
UFS 


11.2.4.3 SAN 存储 系统 


前 文中 介绍 了 服务 器 +JBOD 组 合 ， 可 以 将 大 量 硬 
盘 接 入 服务 器 。 通 常 来 讲 ， 除 了 视频 监控 领域 有 这 种 
单 台 服务 器 使 用 大 量 存储 空间 的 需求 之 外 ， 绝 大 多 数 
应 用 场景 下 是 不 需要 这 么 多 硬盘 的 。 多 数 场景 都 是 服 
务 器 +RAID 卡 ， 挂 接 本 地 机 箱 内 部 的 十 几 块 硬盘 就 足 
够 了 。 后 来 人 们 在 使 用 过 程 中 发 现 ， 每 台 服 务 器 都 使 
用 各 自 的 硬盘 ， 难 免 会 产生 浪费 ， 以 及 不 灵活 。 比 如 
服务 器 A 有 8 块 硬盘 ， 但 是 它 只 用 到 了 6 块 ， 而 服务 器 
B 却 要 求 多 加 一 块 硬盘 ， 但 是 本 地 机 箱 内 没有 空余 槽 
位 了 ， 不 得 已 就 只 能 为 这 单 块 硬盘 购买 一 台 JBOD。 

很 自然 地 ， 如 果 能 把 硬盘 从 服务 器 机 箱 内 部 拿 出 
来 ， 集 中 存放 在 一 起 ， 将 数据 通过 高 速 网 络 传送 给 服 
务 器 ， 这 样 就 可 以 做 到 现 用 现 分 ， 用 多 少 分 多 少 的 灵 
活性 了 。 当 然 ， 随 之 而 来 的 是 跨 网 络 传输 而 导致 性 能 
降低 ， 不 过 这 个 可 以 采用 缓存 来 弥补 ， 于 是 便 有 了 外 
置 存储 系统 。 

如 图 11-95 左 侧 所 示 ， 使 用 一 台 服 务 器 连接 多 个 
JBOD 识 别 到 大 量 硬盘 ， 我 们 将 该 服务 器 称 为 存储 服 
务 器 ， 因 为 该 服务 器 只 提供 存储 服务 ， 不 做 其 他 ， 
或 者 也 可 以 称 之 为 存储 系统 控制 器 。 该 服务 器 前 端 
通过 各 种 网 络 接收 其 他 服务 器 (我们 称 之 为 应 用 服 
务 器 或 者 业务 服务 器 ， 因 为 这 些 服 务 器 上 运行 有 各 
种 企业 应 用 ) 发 送 的 IO 请 求 ， 并 负责 执行 这 些 IO 
请 求 。 为 了 保持 业务 服务 器 上 IO 协议 栈 的 透明 性 ， 
有 必要 让 业务 服务 器 识别 到 一 块 虚拟 的 硬盘 ， 这 样 
就 可 以 保证 业务 服务 器 的 上 层 软 件 不 需要 任何 变 
化 。 提 供 虚拟 硬盘 全 靠 驱动 程序 来 向 系统 中 注册 对 
应 的 块 设备 ， 只 要 业务 服务 器 上 安装 一 个 特殊 驱动 
程序 即 可 ， 比 如 iscsi initiator 程 序 〈 该 程序 Windows/ 
Linux 系 统 安装 时 自 带 ) 。 对 于 FC 和 IB 类 型 的 网 卡 ， 
OS 协议 栈 中 会 天 然 携 带 有 这 种 特殊 上 层 驱 动 ， 无 须 


full end to end, not overed to other 
transportation protocol yet 


额外 安装 。 


业务 服务 器 上 负责 向 网 络 对 端 存储 服务 器 发 送 


IO 请 求 的 底层 模块 又 被 称 为 Initiator， 而 存储 服务 
器 接受 IO 请 求 的 程序 模块 则 被 称 为 Target。 


上 述 驱动 程序 会 向 网 络 上 的 存储 服务 器 发 送 消 
息 询 问 对 方 “你 给 我 准备 了 多 大 容量 的 多 少 块 虚拟 硬 
盘 ”， 这 个 询问 过 程 其 实 就 是 SCSI 指 令 中 的 report lun 
指令 。 存 储 服 务 器 将 对 应 信息 传 回 给 业务 服务 器 〈 当 
然 ， 哪 个 业务 服务 器 识别 到 多 大 容量 多 少 块 盘 ， 完 全 
是 由 管理 员 预 先 配 置 好 的 ) ， 后 者 的 驱动 程序 会 负责 
根据 拿 到 的 信息 向 系统 中 注册 对 应 的 块 设备 ， 从 而 接 
收 上 层 IO， 这 些 IO 最 终 会 被 该 驱动 程序 接收 ， 并 封 
装 成 对 应 的 网 络 包 发 送 给 存储 服务 器 执行 。 

存储 服务 器 可 以 被 配置 为 将 其 后 端的 一 块 或 者 多 
块 硬盘 整体 分 配给 前 端 业务 服务 器 ， 也 可 以 做 一 层 虚 
拟 化 ， 将 硬盘 上 任意 容量 的 区 域 分 配给 业务 服务 器 ， 
而 业务 服务 器 根本 感知 不 到 它 所 识别 到 的 这 块 硬盘 
其 实 是 被 虚拟 出 来 的 。 有 多 种 虚拟 方式 ， 比 如 可 以 将 
多 块 物理 硬盘 虚拟 成 一 块 虚拟 硬盘 ， 或 者 将 任意 硬盘 
上 任意 容量 的 区 域 组 合 起 来 虚拟 成 一 块 盘 ， 任 意 方式 
都 可 以 。 这 意味 着 你 可 以 给 某 个 业务 服务 器 分 配 一 个 
50MB 大 小 的 虚拟 硬盘 ， 或 者 一 个 50TB 大 小 的 硬盘 
显然 目前 市 场 上 根本 不 存在 这 两 种 容量 的 物理 硬盘 。 
当然 ， 存 储 控制 器 内 部 的 软件 需要 记录 这 些 映 射 关 
系 ， 比 如 “给 服务 器 A 分 配 的 1 号 硬盘 位 起 始 于 本 地 硬 
盘 /dev/sda 的 第 65535 个 扇 区 ， 长 度 500MB”， 这 样 ， 
当 收 到 前 端 发 送 过 来 的 IO 请 求 后 ， 根 据 这 个 映射 关 
系 便 可 计算 出 该 IO 最 终 落 入 了 本 地 的 哪个 物理 盘 的 
哪个 区 域 。 为 了 提升 容错 性 和 性 能 ， 存 储 服 务 器 一 般 
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会 将 多 块 物理 硬盘 作成 RAID， 然 后 切 分 出 对 应 的 容 
量 分 配给 前 端 业务 服务 器 。 

这 种 通过 将 存储 资源 集中 ， 然 后 通过 网 络 灵活 分 
配 出 去 的 系统 ， 被 称 为 外 置 集中 存储 系统 。 其 前 端 用 于 
承载 VO 指令 和 数据 的 网 络 被 统称 为 Storage Area Network 
(SAN) ， 所 以 这 种 集中 的 外 置 存储 系统 又 被 称 为 SAN 
存储 系统 ， 或 者 网 络 存储 系统 (Network Storage) 。 

有 一 类 网 络 存储 系统 并 不 向 外 提供 虚拟 硬盘 ， 而 
是 提供 一 个 虚拟 目录 ， 业 务 主机 将 文件 访问 请 求 直接 
发 送 给 外 部 网 络 存储 系统 ， 由 存储 系统 负责 查询 对 应 
的 文件 字 节 存储 在 哪个 硬盘 的 哪个 扇 区 并 进行 数据 读 
写 。 这 种 将 文件 访问 请 求 承载 到 网 络 上 的 存储 系统 访 
问 方式 称 为 网 络 文件 系统 ， 常 用 的 访问 协议 有 NFS 和 
CIFS 两 种 。 能 够 提供 网 络 文件 访问 服务 的 外 部 存储 系 
统 则 被 称 为 NAS (Network Attached Storage) ， 该 名 
称 与 其 表示 的 存储 系统 功能 并 不 是 很 搭配 ， 其 当初 命 
名 的 初衷 仅仅 是 将 字母 “SAN” 倒 过 来 而 已 。 业 务 主 
机 采用 NAS 的 Initiator 端 ， 也 就 是 NFS/CIFS 客 户 端 程 
序 (OS 默认 自 带 ) 来 访问 NAS 系 统 ， 第 10 章 介绍 VFS 
时 曾经 介绍 过 网 络 文件 系统 ， 可 以 回顾 一 下 。 

然而 ， 外 部 存储 系统 有 个 很 大 的 隐患 ， 那 就 是 一 旦 存 
储 控制 器 (存储 服务 器 ， 下 文 统一 使 用 存储 控制 器 ) 发 生 
任何 软 硬 件 故障 ， 那 么 前 端 所 有 的 业务 服务 器 就 都 无 法 
存 取 数据 了 。 于 是 人 们 又 设计 出 双 控 SAN 存 储 系统 。 

如 图 11-95 右 侧 所 示 ， 该 系统 存在 A 控 和 B 控 两 台 服 
务 器 ， 其 目的 是 为 了 在 A 控 发 生 故 障 之 后 ，B 控 能 够 无 
颖 接管 。 要 做 到 这 一 点 ， 必 然 需要 让 A/B 双 控 同 时 识别 
到 所 有 硬盘 ， 那 就 需要 在 JBOD 中 增加 一 个 SAS Expander 
用 于 与 B 控 连接 ， 同 时 需要 将 一 块 硬盘 同时 与 这 两 个 
SAS Expander 连 接 。 于 是 ，SAS 接 口 被 设计 为 拥有 两 个 
数据 口 ( 两 份 数据 金 手 指 ) ， 从 任何 一 个 数据 接口 都 可 
以 发 送 IO 请 求 和 数据 。 这 样 ， 一 个 任何 部 件 都 是 双 宛 
余 的 SAN 存 储 系统 就 出 炉 了 。 当 然 ， 硬 盘 之 间 由 于 做 了 
RAID， 所 以 单 块 硬盘 故障 也 不 会 产生 数据 丢失 。 

这 就 是 在 前 文中 的 一 些 图 片 中 你 会 看 到 JBOD 上 
有 两 个 SAS Expander 模 块 、 机 柜 中 有 两 台 一 模 一 样 
的 服务 器 的 原因 所 在 ， 其 实 这 两 台 服务 器 加 上 一 堆 
JBOD 组 成 了 一 个 SAN 存 储 系统 。 几 乎 所 有 的 SAN 存 
储 系统 厂商 都 没有 使 用 标准 服务 器 来 充当 控制 器 的 ， 
它们 普遍 采用 定制 化 的 非 标 准 服务 器 ， 其 原因 主要 是 
标准 服务 器 在 设计 、 功 率 、 可 维护 性 、PCIE 插 槽 数量 
和 形态 等 各 方面 都 不 太 满 足 要 求 。 其 实 还 有 一 个 隐形 
原因 ， 那 就 是 必须 将 存储 系统 做 的 与 众 不 同 ， 才 能 让 
人 感觉 到 这 个 系统 的 档次 。 

如 图 11-96 所 示 为 一 些 品牌 的 SAN 存 储 系统 的 控制 
器 和 JBOD 实 物 图 以 及 连接 拓扑 。 可 以 看 到 左上 角 的 
两 个 控制 器 设计 ， 其 在 2U/4U 机 箱 内 放置 了 两 个 主板 + 
对 应 的 IO 接口 卡 〈 后 端 SAS 卡 、 前 端 各 种 网 络 卡 ) 。 
接口 卡 的 形状 也 并 不 是 标准 PCIE 形 式 的 ， 而 是 特殊 定 
制 的 《依然 遵循 PCIE 信 和 号 规范 ， 只 是 连接 器 不 同 ) 。 
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如 图 11-97 所 示 为 SAN 存 储 系 统 在 机 房 中 部 署 之 
后 的 现场 图 ， 是 不 是 感觉 与 手册 中 给 出 的 图 有 很 大 区 
别 ， 是 的 ， 因 为 现场 连 线 众 多 ， 包 括 后 端的 SAS 线 费 
以 及 各 类 前 端 网 络 线 缆 、 供 电线 缆 、 各 种 用 于 配置 的 
串口 线 ， 这 些 线 费 混杂 在 一 起 就 成 了 图 示 这 副 样子 
了 。 不 管 如 何 ， 只 要 对 SAN 存 储 的 核心 架构 拓扑 了 然 
于 胸 ， 即 是 亲临 现场 也 是 信 手 牛 来 。 

如 图 11-98 所 示 为 使 用 两 台 、 每 台 插 有 两 张 SAS 
HBA 的 DELLEMC PowerEdge R730 服 务 器 ， 以 及 
MD14xx 系 列 硬盘 扩展 柜 搭建 的 双 控 SAN 存 储 系统 硬 
件 。 只 要 将 对 应 的 操作 系统 和 存储 管理 软件 安装 到 服 
务 器 上 就 可 以 形成 完整 的 SAN 存 储 系统 。 

不 过 专业 的 SAN 存 储 厂商 的 软 硬 件 都 是 紧 耦 合 
的 ， 软 件 会 识别 对 应 的 硬件 系统 配置 。 这 样 做 可 以 保 
证 用 户 或 者 集成 商 不 会 私自 更 换 未 经 认证 测试 的 通用 
硬件 而 导致 的 系统 不 稳定 。 但 是 市 面 上 也 有 一 些 厂 商 
人 允许 用 户 使 用 各 种 硬盘 ， 但 是 并 不 一 定 保证 兼容 性 。 

前 文中 提 到 过 为 了 弥补 数据 跨 外 部 网 络 传输 导 
致 的 高 时 延 ， 外 置 存储 系统 普遍 使 用 数据 缓存 来 提升 
数据 读 写 的 命中 率 。 也 就 是 在 存储 控制 内 一 般配 有 
大 容量 的 DDR RAM， 比 如 16 一 256GB 量 级 ， 用 它 来 
运行 OS 并 同时 充当 数据 缓存 。 存 储 控制 器 根据 历史 
IO 的 目标 地 址 来 做 预 读 从 而 提升 命中 率 ， 对 于 写 IO 
请 求 ， 数 据 在 被 写 入 缓存 之 后 就 立即 发 送 Ack 确 认 给 
业务 服务 器 端 以 通告 IO 完成 ， 所 以 即便 IO 跨 外 部 网 
络 ， 但 是 由 于 大 部 分 都 命中 在 缓存 中 ， 所 以 相 比 SAS 
HBA 直 连 方式 (SAS HBA 没 有 缓存 ， 每 笔 IO 都 要 读 
写 硬盘 ， 而 硬盘 的 寻 道 时 间 通 常 在 10ms 量 级 ) 仍 可 获 
得 较 低 的 时 延 ， 从 而 提升 IO 吞吐 量 。 

然而 ， 缓 存 所 带 来 的 问题 则 是 掉 电 后 RAM 中 的 
数据 丢失 问题 。 为 此 ，SAN 存 储 控制 器 内 部 都 会 配 有 
锂电 池 ， 掉 电 后 锂电 池 持 续 为 RAM 供 电 ， 一 般 电池 电 
量 足 够 支撑 72 小 时 ， 之 后 如 果 未 恢复 供电 ， 则 数据 丢 
失 。 如 图 11-99 所 示 ， 对 于 现代 〈2015 年 之 后 ) 的 SAN 
存储 系统 ， 由 于 SSD 的 大 量 普及 ， 普 遍 采用 超级 电容 
/锂电 池 +SSD 来 做 掉 电 保护 。 掉 电 时 ， 超 级 电容 持续 
供电 ， 系 统 迅速 将 RAM 中 的 脏 数据 写 入 SSD， 之 后 就 
可 以 停止 供电 了 ， 这 样 可 以 保证 数据 永 不 丢失 。 供 电 
恢复 后 ， 系 统 启动 时 会 从 SSD 中 将 脏 数 据 重新 写 入 数 
据 硬盘 中 。 如 图 11-100 右 侧 所 示 为 使 用 超级 电容 +SSD 
设计 的 存储 控制 器 。 由 于 锂电 池 故 障 率 和 稳定 性 不 理 
想 ， 实 际 产 品 一 般 都 采用 超级 电容 。 

对 于 一 些 性 能 比较 强 、 配 置 规格 比较 高 的 存储 控 
制 器 ， 小 锂电 池 / 电 容 已 经 无 法 满足 需求 。 对 于 中 高 端 
存储 系统 ， 一 般 采 用 单独 的 电池 模块 ， 甚 至 直接 在 机 
柜 中 安放 一 个 小 型 UPS (Uninterruptible Power Supply， 
本 质 上 还 是 一 堆 电 池 ， 可 管理 性 更 强 ) 。 如 图 11-101 左 
侧 所 示 为 DELLEMC VNX8000 存 储 系统 前 视图 ， 可 以 
看 到 两 个 电池 模 组 。 图 中 右 侧 所 示 为 EMC Symmetrix 
DMX2000 存 储 系统 前 视图 ， 可 以 看 到 下 方 的 UPS。 
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Block and File VNX8000 platform (front view) 


图 11-101 存储 系统 中 使 用 的 电池 模 组 和 UPS 


关于 双 控 SAN 存 储 系统 还 有 很 多 细节 ， 比 如 B 控 
平时 如 果 什 么 也 不 干 ， 是 不 是 太 浪费 了 ， 能 否 让 A/ 
B 双 控 相互 备份 ( 互 备 ) ? 或 者 让 A/B 双 控 可 以 同时 
处 理 任 何 IO СЗ) ? 这 些 细节 可 以 参考 冬瓜 哥 的 
《大 话 存 储 后 传 》 一 书 。 

外 置 网 络 存储 系统 最 早 可 以 追溯 到 1983 年 。 当 时 
著名 的 计算 机 设计 制造 厂商 DEC (Digital Equipment 
Corporation) 设计 了 一 款 集群 系统 ， 在 该 集群 中 ， 最 
高 15 台 业务 主机 (DEC VAX 系 列 主机 ) 可 以 通过 网 络 
连接 到 HSC (Hierarchical Storage Controller) 获取 存 
储 资源 。HSC50/HSC90 系 列 存 储 控制 器 本 质 上 也 是 一 


System Bay (Rear) 


(8) Power Supply Cords 
(UPS) Uninterruptible Power Supply 
(2) (PDP) Power Distribution Panel 


(2) (PDU) Power Distribution Unit — 
(8) (SPS) Standby Power Supplies 


(16) 8-Port Adapters — 


(2) XCM Boards — 


台 计 算 机 ， 其 后 端 可 通过 SCSI 接 口 连接 SCSI 设 备 或 者 
硬盘 扩展 柜 。 

如 图 11-102 所 示 ，20 世 纪 80 年 代 的 计算 机 由 于 集 
成 度 不 高 ， 所 以 普遍 采用 插 卡 + 背 板 总 线形 式 将 多 个 
不 同 部 件 相互 连接 的 架构 ， 看 上 去 给 人 一 种 档次 很 高 
的 感觉 〈 犹 如 刀片 服务 器 一 般 ) ， 实 则 为 无 奈 之 举 。 
整 台 计 算 机 的 处 理 能 力 尚 赶不上 今天 一 部 智能 手机 。 
图 中 带 有 蓝 色 SCSI 连 接 器 的 插 板 便 相 当 于 SCSI НВА 
了 。 如 图 11-103 所 示 为 HSC90 控 制 器 的 内 存 板 及 核心 
处 理 器 板 。 其 上 的 CPU 是 否 看 着 眼熟 ? 是 的 ， 请 参阅 
第 3 章 图 3-200。 
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Part Number Description 
10111-YC HSC90 1/0 Controller Processor 
10123-AC Memory 4 

Empty 

Empty 
10119-YA 4 P Disk/Tape Data Channel 
10119-YA 4 P Disk/Tape Data Channel 
10119-YA 4 P Disk/Tape Data Channel 
10108-YA Disk Data Channel 
10108-YA Disk Data Channel 
10119-YA 4 P Disk/Tape Data Channel 

Empty 
10124-AA С! Port Processor 
10125-AA CI Port Buffer 
10118-YA CI Port Link 


如 图 11-104 所 示 为 该 存储 系统 的 硬盘 以 及 硬盘 扩 
柜 〈 最 大 可 插入 8 个 硬盘 ) 。 

近代 SAN 存 储 系统 的 鼻祖 当 属 EMC (已 被 DELL 
收购 ， 现 属于 DELLEMC) 公司 的 Symmetrix DMX 系 
列 产品 。 其 设计 思路 与 DEC HSC50/90 系 列 控 制 器 相 
似 。 整 体 采 用 处 理 器 插 板 、 内 存 插 板 、HBA 插 板 组 
成 整个 系统 的 核心 控制 部 分 ， 机 柜 内 其 他 组 件 则 是 
UPS 和 供电 管理 部 分 以 及 大 量 JBOD 扩 展柜 。 如 图 11- 
105 所 示 为 早期 Symmetrix DMX 系 列 架构 示意 图 。 在 
Symmetirx 时 代 ， 计 算 机 芯片 集成 度 已 经 比较 高 了 。 


如 图 11-106 右 侧 所 示 为 近代 的 Symmetrix DMX4 
的 系统 架构 ， 其 满 配 时 可 以 支持 8 个 前 端 网 络 IO 控 制 
器 板 〈 相 当 于 前 端 HBA+ 处 理 器 + 本 地 内 存 ) 以 及 8 个 
后 端 IO 控制 器 板 〈 连 接 硬盘 扩展 柜 的 HBA+ 处 理 器 + 
本 地 内 存 ) ， 以 及 8 块 共享 的 数据 缓存 板 。Symmetrix 
DMKX 系 列 产品 属于 整个 存储 系统 发 展 史上 的 经 典 产 
品 ， 其 架构 被 认为 是 高 端 SAN 存 储 系统 经 典 架构 ， 
凡是 不 具备 类 似 架 构 的 都 算 不 上 是 高 端 存储 系统 。 
DMX 表 示 Direct Matrix (НЕ), ЖА ТЖ 
统 内 所 有 部 件 〈 前 端 和 后 端 板 ) 通过 点 对 点 直 连 的 方 


式 直 接 与 共享 存储 器 相连 ， 所 有 部 件 采用 共享 内 存 的 
方式 来 通信 。 这 样 做 的 好 处 是 能 够 实现 多 控制 器 对 称 
式 多 活 协作 、 不 存在 缓存 一 致 性 问题 〈 因 为 缓存 是 
集中 放置 的 且 只 有 唯一 的 一 份 副本 ) 、 极 高 的 系统 
匈 余 性 (任何 一 个 /多 个 部 件 故障 不 影响 整体 系统 可 
用 性 ) 。 

如 图 11-107 所 示 为 Symmetrix DMX4 系 统 满 配 时 的 
架构 及 实物 图 ， 如 图 11-108 所 示 为 Symmetrix DMX4 系 
统 的 部 分 单 板 实物 图 。 

DELLEMC 最 新 的 高 端 存储 产品 为 Symmetrix 
VMAX 系 列 ， 其 架构 与 DMX 系 列 有 了 很 大 变化 。 

首先 ，VMAX 系 列 不 再 区 分 前 端 IO 控制 器 和 后 


Symmetrix DMX1000 


Symmetrix DMX2000 
11-105 早期 Symmetrix DMX 系 列 架构 示意 图 


FOMostAtach СОМ GE ВС ҒСОҢ GE SCS| СОН, GE ВС — FICON. GigE, ISCSI 


第 11 章 “现代 计算 机 系统 形态 与 生态 [天 和 


端 IO 控制 器 了 ， 同 一 个 控制 器 内 同时 插 有 前 端 网 卡 
和 后 端 SAS НВА. 

其 次 ，VMAX 系 列 不 再 采用 集中 式 共享 缓存 ， 而 
转 为 采用 分 布 式 共享 缓存 ， 也 就 是 将 原本 集中 的 数据 
缓存 分 布 到 各 个 IO 控制 器 上 。 

另外 ，VMAX 采 用 独立 的 Infiniband 高 速 网络 交 换 
机 来 互 连 所 有 的 控制 结 点 ， 形 成 了 一 个 共享 缓存 的 分 
布 式 系统 ， 如 图 11-109 所 示 。 

VMAX 的 架构 相 比 DMX 而 言 ， 更 加 开放 ， 实 现 
成 本 也 更 低 ， 开 发 和 维护 上 都 降低 了 复杂 度 。 如 图 11- 
110 所 示 为 一 台 Symmetirx VMAX 系 统 的 部 署 照片 的 前 
视图 及 后 视图 。 
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图 11-106 DMX1000 实 物 图 以 及 DMX4 架 构图 
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图 11-109 DELLEMC Symmetrix VMAX 存 储 系统 架构 
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图 11-110 DELLEMC Symmetrix VMAX 存 储 系统 照片 


在 国内 存储 厂商 中 ， 浪 潮 可 以 作为 一 个 典型 代 
表 。2001 年 ， 浪 潮 正 式 进 入 中 国 商用 存储 市 场 ， 
2005 年 提出 “Active Storage” 的 产品 理念 ， 推 出 首 
款 统一 存储 产品 ，2009 年 ， 研 制 出 中 国 第 一 台 PB 级 
海量 存储 系统 ，2015 年 ， 发 布 高 端 存 储 AS18000; 
2016 年 ， 发 力 软件 定义 存储 ， 提 出 “技术 和 场景 双 
轮 驱 动 ”的 发 展 路 线 ，2017 年 ， 推 出 智能 存储 G2 平 
台 和 智能 全 闪 G2-F， 目 前 已 经 实现 高 、 中 、 低 端 全 
覆盖 的 产品 布局 。 浪 潮 高 端 存储 系统 实现 了 全 互联 
架构 ， 软 件 定义 存储 实现 结 点 按 需 供给 且 满 足 EB 级 
容量 扩展 ， 固态 存储 系统 实现 了 百 万 IOPS 性 能 和 亚 
毫秒 级 的 时 延 。 

在 传统 SAN 存 储 方面 ， 浪 潮 智 能 存储 G2〈 如 图 
11-111 所 示 ) 基于 统一 架构 和 In 系列 智能 软件 设计 ， 
在 满足 企业 级 关键 数据 存储 、 处 理 需 求 的 同时 ， 更 强 
调 数据 生命 周期 的 智能 化 。G2 内 集成 了 超过 1000 个 软 
硬件 传感器 、 一 百 多 个 持续 优化 的 核心 算法 、 十 多 个 
服务 模型 。 


AS18000G2 


AS6800G2 


图 11-111 浪潮 智能 存储 G2 全 景 图 

高 密度 高 扩展 的 硬件 设计 架构 ， 满 足 对 性 能 和 容 
量 的 极致 要 求 。 盘 控 一 体 产 品 3U 空 间 可 容纳 48 块 3.5 
英寸 硬盘 ， 单 台 阵 列 可 达到 0.5PB 的 容量 ， 高 性 能 机 
头 ， 单 控 达 到 12 张 IO 卡 的 扩展 能 力 ， 在 盘 、 卡 等 方面 
业界 领先 。 如 图 11-112 所 示 为 浪潮 智能 存储 G2 部 分 硬 
件 模块 。 


图 11-112 ”浪潮 智能 存储 G2 部 分 硬件 模块 


浪潮 智能 存储 G2 支 持 智 能 4+1 tiering 分 层 存 储 技 
术 ， 如 图 11-113 所 示 。 最 大 支持 4 层 数据 分 层 ， 可 根据 
不 同 介质 进行 组 合 ， 分 层 适用 于 VDI、OLTP、OLAP 等 
场景 ， 可 以 利用 最 少 的 投入 带 来 读 写 性 能 的 提升 ，TCO 
降低 30%。 随 着 云 计算 的 发 展 ， 如 何 协助 客户 轻松 上 云 
并 驱动 数据 向 云端 迁移 成 为 难题 ， 针 对 混合 云 环境 下 
长 距离 、 低 带宽 的 数据 传输 场景 ，G2 采 用 高 效 的 网 络 
复制 技术 ， 通 过 压缩 、 动 态 调整 窗口 、 多 虚拟 化 连接 
等 功能 ， 优 化 数据 传输 所 占用 的 带宽 ， 比 传统 复制 提 
升 90%， 大 幅 提 升 数据 传输 效率 ， 实 现 灵活 上 云 ; G2 
具备 与 云端 对 接 的 能 力 ， 除 了 作为 云 计算 的 存储 资源 
池 外 ， 还 可 通过 网 络 实现 云 缓存 ， 云 备份 ， 云 容 灾 。 

基于 存储 的 Active-Active 双 活 方案 ， 面 对 任意 站 
点 故障 ， 可 确保 数据 零 丢 失 ， 业 务 零 中 断 ;， 基 于 IO 
双 写 ， 本 地 读 机 制 ， 保 证 数据 一 致 性 ， 提 供 IP 仲 裁 机 
制 ， 保 证 故障 发 生 时 单数 据 中 心平 稳 运行 。 

异 构 虚 拟 化 技术 可 以 透明 接管 业界 95% 以 上 品 
牌 、 型 号 的 SAN 存 储 ， 并 支持 资源 池 化 、 在 线 扩容 、 
数据 迁移 等 功能 ， 帮 助 客户 实现 老 旧 存储 设备 的 整合 
管理 和 再 利用 ， 提 高 资源 使 用 效率 。 

智能 运 维 ， 传 统 存储 的 运 维 十 分 复杂 ， 并 且 大 部 
分 需要 原 厂 人 员 进行 维护 ，G2 的 部 件 运 维 简单 安全 ， 
可 以 通过 智能 的 运 维 工 具 实现 预测 、 预 警 ， 以 及 预 处 
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理 、 日 志 收集 等 特性 。 对 于 L3 大 数据 分 析 来 说 ，G2 
智能 管理 套件 可 以 实现 远程 大 数据 分 析 ， 针 对 每 个 存 
储 的 故障 、 性 能 、 监 控 、 告 警 等 进行 分 析 ， 可 以 实现 
自动 化 运 维 并 通过 性 能 分 析 进 行 存储 优化 等 功能 。 
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随 着 硬件 性 能 的 不 断 增 长 ， 近 年 来 ， 三 个 比较 
重要 的 技术 指标 的 提升 给 存储 系统 架构 带 来 了 较 大 
变革 。 这 三 个 指标 就 是 : 硬盘 速度 快 了 〈 固 态 硬盘 
普及 ) 、 硬 盘 容 量 大 了 《机械 盘 和 固态 盘 容量 越 来 
越 大 ， 已 到 10TB 级 ) 、 网 络 速度 高 了 〈10GbE 标 配 ， 
40GbE/100GbE) 。 由 于 这 三 个 因素 的 影响 ， 服 务 器 使 
用 RAID 卡 + 本 地 硬盘 的 方式 也 不 是 不 能 满足 常规 需求 。 
比如 配 有 8 个 硬盘 模 位 的 服务 器 ， 假 设 每 块 硬盘 4TB 容 
量 ，32TB 对 于 绝 大 多 数 单 台 服务 器 上 运行 的 应 用 而 言 
已 经 够 用 了 ， 如 果 采 用 SSD， 单 块 SSD 的 性 能 其 实 已 经 
可 以 满足 一 些 主流 应 用 的 IOPS 要 求 ， 更 不 用 说 多 块 SSD 
作成 RAID 之 后 通过 增加 并 发 概率 进一步 提升 性 能 了 。 


那么 ，SAN 所 带 来 的 灵活 性 、 性 能 的 优势 就 被 削弱 了 。 

此 时 ，20 世 纪 70 年 代 出 现 的 一 种 技术 一 一 分 布 式 
存储 技术 ， 就 又 被 人 重新 审视 了 起 来 。 所 谓 分 布 式 存 
储 系统 ， 就 是 将 分 散在 多 台 计 算 机 上 的 资源 整合 成 唯 
一 的 一 份 虚拟 资源 。 比 如 服务 器 A 上 有 文件 4， 服务 
器 B 上 有 文件 B， 分 布 式 系统 可 以 让 服务 器 A 和 B 同 时 
看 到 一 个 单一 目录 ， 目 录 中 有 A 和 B 两 个 文件 。 对 于 
服务 器 A 上 的 应 用 ， 其 访问 文件 B 时 ， 会 由 特殊 的 底 
层 程序 负责 将 发 送 给 文件 B 的 访问 请 求 通过 网 络 转发 
给 服务 器 B， 服 务 器 B 返 回 文件 B 的 数据 。 这 就 是 所 谓 
的 分 布 式 系统 ， 也 就 是 每 个 人 拥有 资源 的 一 部 分 ， 但 
是 所 有 人 对 上 层 《〈 应 用 程序 ) 体现 出 一 个 单一 名 称 空 
ЇН] (Single Name Space) 。 所 有 服务 器 均 记录 有 分 布 
式 系统 内 各 个 资源 碎片 的 属性 以 及 所 在 的 服务 器 卫 地 
址 ， 所 有 服务 器 相互 转发 自己 拥有 的 数据 〈 当 被 访问 
到 时 ) 。 分 布 式 系统 中 的 每 台 贡 献 自己 资源 的 服务 器 
又 被 称 为 结 点 (Node) 。 如 图 11-114 所 示 为 分 布 式 系 
统 的 全 局 架构 。 
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11-144. 分 布 式 系统 全 局 架构 示意 图 
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所 以 ， 如 果 服 务 器 之 间 的 互联 
网 络 速度 不 高 ， 比 如 千 兆 时 代 ， 那 
么 这 种 转发 导致 访问 时 延 非常 高 ， 
使 得 整个 分 布 式 系 统 不 具备 可 用 
性 。 但 是 在 万 兆 时 代 ， 这 个 瓶颈 终 
于 被 打破 了 。 再 加 上 固态 硬盘 的 低 
时 延 可 以 弥补 一 些 网 络 时 延 ， 所 以 
最 终 性 能 也 是 可 以 令 人 满意 的 。 再 
加 上 硬盘 容量 越 来 越 大 ， 只 使 用 服 
务 器 机 箱 内 部 的 本 地 硬盘 就 可 以 满 
足 多 数 需求 ， 更 别提 多 台 服 务 器 组 
成 分 布 式 系统 了 。 所 以 分 布 式 存储 
系统 近年 来 大 行 其 道 。 而 传统 SAN 


存储 系统 市 场 则 逐渐 被 侵占 。 

分 布 式 存储 系统 又 可 以 分 为 
分 布 式 文件 系统 和 分 布 式 块 系统 ， т 
前 者 将 不 同 结 点 上 的 文件 虚拟 成 一 Зы 
个 单一 的 目录 树 ， 而 后 者 将 不 同 结 rt 
点 上 贡献 出 来 的 块 设备 资源 虚拟 成 Е 


一 个 或 者 多 个 块 设备 。 这 些 虚拟 块 
设备 可 以 根据 策略 ， 让 所 有 结 点 可 
见 或 者 只 让 部 分 结 点 可 见 。 上 述 做 


法 的 关键 在 于 需要 在 每 个 结 点 上 实 = Ë 
现 对 应 的 内 核 模块 来 接管 针对 这 些 ЈЕ із 
虚拟 资源 的 访问 。 比 如 分 布 式 文件 EE EB 
系统 需要 在 结 点 上 安装 对 应 的 文件 Š É 
系统 ， 挂 载 时 选择 该 文件 系统 ， 那 
么 后 续 针对 挂 载 路 径 的 访问 自然 就 
会 走 入 该 分 布 式 文件 系统 底层 处 理 


模块 ， 之 后 的 行为 就 可 以 为 所 欲 为 
了 。 同 理 ， 分 布 式 块 系统 也 需要 提 
供 对 应 的 块 设备 驱动 向 系统 中 注册 
虚拟 块 设备 来 接收 上 层 的 IO 请 求 
然后 在 底层 做 对 应 处 理 。 

如 图 11-115 右 侧 所 示 ， 如 果 分 
布 式 管理 模块 将 虚拟 目录 /虚拟 块 
设备 通过 网 络 映射 出 去 (与 SAN 
存储 做 法 相同 ) ， 那 么 这 个 分 布 式 
系统 就 只 提供 存储 服务 了 ， 此 时 它 
被 称 为 分 布 式 存储 系统 。 业 务 服 
务 器 采用 各 种 initiator 端 (比如 FC 
initator, iscsi initiator, NFS/CIFS 
等 ) 连接 到 分 布 式 存储 系统 的 任何 
一 个 结 点 ， 即 可 存储 数据 了 。 

如 图 11-115 左 下 角 所 示 为 可 选 
的 一 种 系统 架构 ， 分 布 式 存储 系统 
后 端 采 用 独立 的 网 络 交换 机 (可 以 
采用 更 高 速 的 甚至 私有 的 不 常用 的 
网 络 ， 这 个 例子 可 以 参见 如 图 11- 
109 所 示 的 VMAX 存 储 系统 架构 ， 
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11-115 ”传统 意义 上 的 分 布 式 系统 以 及 单独 的 分 布 式 存储 系统 


业务 服务 器 
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其 多 个 结 点 之 间 就 使 用 了 Infiniband 网 络 互 连 ， 而 且 是 
两 台 Infiniband 交 换 机 互 备 ) 来 相互 传递 控制 信息 和 数 
H 同时 前 端 采 用 更 普遍 的 比如 以 太 网 交换 机 与 业务 
服务 器 互联 。 


通常 ， 将 集群 结 点 之 间 相互 传递 的 数据 称 为 东 
西向 流量 (横向 ) ; 而 将 前 端 业务 主机 与 本 系统 之 
闻 的 流量 称 为 南北 向 流量 ( 纵向 ) 。 目 前 数据 中 心 
中 东西 向 流量 比例 也 越 来 越 高 。 


浪潮 软件 定义 存储 AS13000 是 面向 云 、 大 数据 、 
深度 学 习 等 应 用 ， 聚 焦 “ 场 景 化 ”， 基 于 “场景 驱 
动 开 发 ”模式 的 分 布 式 存储 ， 如 图 11-116 所 示 。 基 于 
软件 、 硬 件 协 同 创新 的 理念 ，AS13000 支 持 多 形态 硬 
件 ， 硬 件 方面 除了 支持 通用 服务 器 外 ， 还 支持 针对 大 
数据 、AI 等 应 用 场景 定制 的 异 构 服 务 器 、 超 高 密 及 
Rack 整 机 柜 服务 器 ， 并 可 提供 文件 、 对 象 、 块 、 大 数 
据 4 种 数据 服务 ， 容 量 按 需 扩展 、 性 能 按 需 供给 、 服 
务 按 需 定义 。 

AS13000 实 现 了 架构 一 致 性 ， 即 一 套 架构 同时 提 
供 文件 、 块 、 对 象 、 大 数据 4 种 数据 服务 ， 产 品 在 设 
计 之 初 就 考虑 了 客户 业务 的 多 样 性 需求 ， 能 保证 在 基 
础 设施 层面 实现 数据 分 发 流动 ， 减 少 跨 设 备 的 数据 复 
制 和 迁移 ， 减 少 部 署 和 运 维 的 复杂 度 ， 在 一 套 技 术 体 
系 内 实现 数据 的 全 生命 周期 管理 ， 帮 助 客户 应 对 新 兴 
应 用 带 来 的 数据 存储 挑战 ， 真 正 为 客户 提供 按 需 供给 
的 数据 服务 。 

AS13000 统 一 资源 池 化 技术 ， 可 以 将 存储 资源 
整合 成 统一 存储 池 ， 消 除了 数据 孤岛 ， 而 不 是 让 
数据 孤岛 变 得 更 大 ， 充 分 提高 了 存储 资源 的 使 用 
效率 。 

AS13000 统 一 数据 互 连 ， 打 通 数据 管道 ， 使 数据 
流动 起 来 ， 从 接 入 、 上 云 、 应 用 三 个 方面 实现 数据 连 
接 。 在 接 入 端 ， 通 过 内 置 KVM 虚 拟 机 ， 客 户 应 用 可 
直接 运行 在 KVM 虚 拟 机 上 ， 节 省 了 单独 构建 流 媒体 


服务 器 的 硬件 成 本 ; 在 上 云端 ， 利 用 云 网 关 做 云 备 
份 、 云 分 层 、 云 缓存 ， 实 现 数据 在 存储 设备 、 私 有 
云 、 公 有 云 之 间 流 动 ， 完 美 适 配 OpenStack; 在 应 用 
端 ， 通 过 多 种 接口 协议 的 适 配 ， 使 应 用 可 自由 访问 存 
储 数据 。 例 如 多 源 零 找 贝 技术 ， 基 于 AS13000 统 一 架 
构 来 实现 ， 通 过 协议 转换 ， 确 保 一 份 源 数据 可 以 被 不 
同 的 存储 协议 的 客户 端 读 取 ， 数 据 互 相 可 见 ， 有 效 解 
决 原 有 各 协议 数据 互相 不 可 访问 ， 无 法 有 效 共享 的 问 
题 。 用 户 无 须 保留 多 份 数据 ， 无 须 在 不 同 的 存储 池 迁 
移 数 据 ， 使 用 成 本 降低 50% 以 上 。 

AS13000 实 现 面向 多 数据 中 心 的 统一 管理 平台 
存储 服务 化 为 用 户 提 供 了 丰富 的 应 用 接口 ， 通 过 
RestAPI 技 术 ， 把 存储 管理 软件 化 、 服 务 化 ， 向 用 户 
按 需 提供 块 、 文 件 、 对 象 服务 ;敏捷 管理 ， 可 以 多 维 
度 、 全 方位 地 展示 存储 容量 信息 、 健 康 状 态 ， 提 供 数 
据 中 心 存 储 视图 及 报表 分 析 ， 跨 数据 中 心 的 统一 的 管 
理 、 监 控 、 告 警 、 拓 扑 ， 智 能 化 管理 ， 主 动 学 习 系统 
已 知 故障 ， 识 别 故障 特征 ， 分 析 故 障 概率 ， 预 测 可 能 
发 生 的 故障 ， 减 少 用 户 损失 。 

基于 “场景 驱动 开发 ”模式 ，AS13000 在 典型 场 
景 快 速 定制 和 优化 方面 有 着 非常 多 的 实践 : 如 采用 组 
存 QoS 技 术 ， 保 障 存储 系统 单 结 点 的 稳定 带宽 ;回收 
站 技术 ， 防 止 数 据 不 会 被 误 删除 ， 有 效 地 保障 了 广电 
场景 的 非 编 业务 和 媒 资 库 业务 ; 小 文件 聚合 和 稀疏 
文件 性 能 优化 技术 ， 能 够 使 单 存储 结 点 OPS 性 能 提升 
30% 以 上 ， 很 好 地 满足 了 视频 监控 场景 的 卡 口 业务 需 
求 , RDMA、 读 预 取 、 私 有 客户 端 和 对 象 聚合 等 特性 
调 优 技术 ， 可 使 单 客户 端 随机 读 性 能 提升 60% 以 上 ， 
满足 在 HPC、AI、 大 数据 应 用 场景 下 的 业务 需求 。 如 
图 11-117 所 示 为 多 源 零 拷贝 技术 示意 图 。 


11.2.4.5 数据 恢复 


不 得 不 说 的 是 ， 不 管 是 单 块 物理 硬盘 ， 还 是 由 
RAID 卡 + 多 块 硬盘 组 成 的 RAID 系 统 ， 还 是 外 置 大 型 
SAN 存 储 系统 ， 它 们 都 是 有 一 定 概率 出 现 数据 损毁 
的 ， 导 致 损毁 的 具体 原因 有 很 多 ， 详 情 可 关注 “大 话 


图 11-116 ”浪潮 软件 定义 存储 AS13000 
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图 11-117 多 源 零 拷贝 技术 示意 图 


存储 ” 微 信 公 众 号 查看 相关 文章 。 在 遇 到 数据 丢失 
时 ， 人 们 往往 会 考虑 从 之 前 的 备份 来 恢复 数据 ， 难 免 
会 丢失 最 新 一 段 时 间 内 的 数据 ， 因 为 数据 备份 并 不 是 
实时 更 新 的 ， 企 业 一 般 每 天 备份 一 次 。 有 不 少 个 人 没 
有 备份 数据 的 习惯 。 有 相当 一 部 分 中 小 企业 IT 系统 管 
理 员 甚至 认为 RAID 就 是 一 种 备份 方式 ， 这 是 错误 的 
观点 。 在 没有 完整 数据 备份 的 情况 下 ， 想 恢复 数据 的 
话 ， 就 要 求助 于 专业 的 数据 恢复 公司 。 

专业 数据 恢复 公司 对 流行 的 各 种 文件 系统 、 卷 
管理 系统 、RAID、 外 置 存储 系统 的 数据 管理 布局 有 
很 深入 的 研究 ， 可 以 通过 硬盘 上 残留 的 蛛丝马迹 来 将 
被 破坏 的 数据 重新 整合 起 来 。 另 外 ， 针 对 硬件 级 故 
障 ， 专 业 数 据 恢 复 公 司 可 以 进行 硬盘 开盘 维修 和 数据 
恢复 。 

北 亚 数据 安全 与 救援 中 心 是 一 家 老牌 数据 恢复 公 
司 ， 本 节 引 用 并 分 析 该 公司 的 一 些 技术 要 点 。 如 图 
11-118 所 示 为 企业 级 数据 恢复 的 范围 。 

如 图 11-119 所 示 为 个 人 消费 级 的 范围 。 

此 外 ， 北 亚 还 开发 了 针对 行业 定制 化 的 数据 恢复 
软件 和 硬件 产品 ， 如 图 11-120 所 示 。 

下 面 我 们 以 一 个 案例 来 简单 介绍 数据 恢复 的 过 
程 ， 该 案例 取 自 北 亚 总 经 理 的 博客 Chttp://blog.51cto. 
com/zhangyu) 。 该 案例 为 一 例 IBM Storwize V7000 
外 置 存储 系统 数据 恢复 案例 ， 这 款 系统 支持 RIAD 0/ 
ВАШ 10/RAID5/RAID 6， 上 层 卷 管理 支持 普通 卷 / 精 
简 模式 的 卷 /镜像 模式 的 卷 /精简 镜像 模式 的 卷 。 

拆 分 来 看 ，V7000 存 储 的 底层 原理 结构 其 实 不 属 
于 复杂 的 类 型 ， 整 个 存储 结构 一 共 分 为 4 层 。 第 一 层 
是 物理 硬盘 ， 也 就 是 数据 实际 存放 的 位 置 。 第 二 层 是 
мрак (就 是 存储 中 的 RAID) ， 这 一 层 是 许多 个 物理 
硬盘 的 集合 。 第 三 层 叫 作 池 ， 池 又 把 诸多 MDisk 组 合 
而 成 为 一 个 更 大 的 逻辑 容器 。 第 四 层 是 卷 ， 卷 是 面向 
用 户 的 存储 单位 ， 它 们 是 从 池 中 分 配 出 来 的 空间 。 整 
个 存储 卷 架构 如 图 11-121 所 示 。 

在 物理 硬盘 中 的 数据 都 是 以 小 块 为 单位 
(Block) 进行 存储 ， 即 人 们 通常 理解 的 存放 在 MDisk 


中 的 数据 会 分 成 多 个 Block 平 均 分 布 在 所 有 硬盘 上 。 
在 MDisk 这 一 层 ， 数 据 是 以 段 为 单位 存储 的 ， 多 个 
MDisk 组 成 了 一 个 池 ， 即 在 池 中 创建 的 卷 会 被 分 成 若 
干 个 段 放 到 不 同 的 MDisk 中 ， 不 同 卷 的 类 型 分 布 在 池 
中 的 方式 也 不 同 ， 不 过 最 终 还 是 以 段 为 单位 存储 在 
MDisk 中 的 。V7000 的 存储 过 程 就 是 用 户 将 数据 存放 
到 卷 中 ， 而 卷 又 会 被 分 割 成 若干 个 段 分 布 在 不 同 的 
MDisk 中 ， 而 MDisk 又 会 将 段 分 成 若干 个 块 分 布 在 不 
同 的 硬盘 中 。 最 终 数据 全 部 是 以 块 为 单位 分 布 在 不 同 
的 硬盘 中 。 

很 多 工程 师 都 有 这 样 的 疑问 ， 外 置 存储 系统 一 
且 出 现 有 多 块 物理 硬盘 掉 线 或 者 故障 的 情况 还 能 不 
能 恢复 数据 呢 ? 本 案例 就 以 北 亚 数 据 恢复 中 心 IJBM 
V7000 存 储 恢 复方 案 为 例 ， 详 细 讲 解 因为 某 个 MDisk 中 
有 多 块 硬盘 掉 线 的 情况 导致 的 数据 丢失 的 恢复 方法 。 

设备 信息 : 客户 的 设备 为 BM V7000 系 列 存储 ， 
由 存储 控制 器 + 硬盘 扩展 柜 组 成 ， 故 障 涉及 的 硬盘 共 
64 块 ， 其 中 包括 三 块 热 备 盘 〈 其 中 一 块 已 启用 ) 。 查 
看 客户 所 给 的 相关 信息 ， 了 解 到 共有 8 组 MDisk， 加 入 
到 了 一 个 存储 池 中 ， 其 中 创建 了 一 个 通用 卷 来 存放 数 
据 ， 如 图 11-122 所 示 。 

故障 表现 : 首先 有 一 块 硬盘 出 现 故障 离线 ， 热 
备 盘 启用 替换 ， 在 此 时 与 离线 盘 同 一 组 MDisk 中 又 有 另 
一 块 硬盘 出 现 故 障 离线 ， 从 而 导致 热 备 盘 同步 失败 ， 这 
组 MDisk 失 效 ， 进 而 影响 到 整个 通用 卷 无 法 使 用 。 

数据 恢复 概率 分 析 : 由 于 整个 阵列 失效 的 原因 是 
硬盘 故障 导致 的 ， 所 以 如 果 硬 盘 损 坏 程度 较 轻 的 情况 
下 则 数据 恢复 的 可 能 性 极 大 ， 本 案例 中 客户 需要 的 数 
据 主要 是 DCM 医 学 图 像 文件 ， 所 以 预期 可 以 有 95% 以 
上 的 概率 恢复 数据 。 

北 亚 数 据 恢复 中 心 数据 恢复 流程 如 下 。 

(1) 在 数据 恢复 前 期 需要 将 数据 进行 备份 ， 
以 免 在 数据 恢复 的 过 程 中 对 数据 的 原始 状态 进行 更 
改 。 首 先 把 服务 器 关机 、 切 断 电 源 。 这 里 需要 一 台 
服务 器 用 来 进行 数据 恢复 操作 ， 同 时 需要 一 台 存 储 
用 来 备份 数据 ， 我 们 将 在 北 亚 数 据 恢复 平台 上 挂 载 
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11-120 ” 北 亚 开发 的 针对 行业 定制 化 的 数据 恢复 软件 和 硬件 产品 
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故障 存储 硬盘 ， 挂 载 方式 必须 是 以 只 读 方式 进行 挂 
载 然 后 进行 对 扇 区 的 备份 〈 使 用 北 亚 自 有 镜像 软件 
或 者 dd 等 工具 ) 。 该 过 程 如 图 11-123 所 示 。 备 份 完 
成 后 ， 出 具 详细 报告 ， 涉 及 健康 状态 及 可 能 存在 的 
坏 道 列表 。 将 原故 障 存储 恢复 原 有 状态 后 交 回 给 用 
户 ， 随 后 进行 的 所 有 数据 恢复 操作 均 不 涉及 客户 原 
有 故障 设备 。 

(2) 分 析 并 且 重 组 MDisk。 首 先 需要 与 客户 沟通 
原 有 的 配置 信息 ， 将 硬盘 按照 MDisk 组 分 类 。 通 过 对 
每 一 组 MDisk 中 的 所 有 硬盘 进行 分 析 得 到 相关 的 RAID 
信息 。 对 MDisk 进 行 虚拟 重组 ， 这 一 部 分 只 可 以 使 用 
专业 的 数据 恢复 软件 进行 。 

(3) pool 分 析 。 通 过 对 所 有 MDisk 的 详细 分 析 ， 
我 们 得 到 pool 的 相关 信息 。 虚 拟 重 组 出 pool， 使 用 北 
亚 V7000 数 据 恢复 软件 进行 操作 。 

(4) 修复 文件 系统 。 校 验 NTFS 文 件 系统 的 正确 
性 及 完整 性 。 修 复 NTFS 文 件 系统 。 对 文件 系统 进行 
解析 并 且 提取 数据 。 对 NTFS 文 件 系统 进行 解析 。 生 
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成 卷 中 的 全 部 数据 。 

恢复 结论 : 由 于 存储 故障 后 ， 客 户 对 故障 环境 保 
存 完 好 ， 未 做 任何 破坏 性 的 、 可 能 存在 风险 的 操作 ， 
故 数据 保存 完整 ， 数 据 恢 复工 作 顺 利 完 成 。 北 亚 数据 
恢复 中 心 对 IBM V7000 系 列 存储 的 底层 结构 研究 得 很 
透彻 ， 所 以 对 此 系列 存储 的 故障 ， 数 据 都 可 以 进行 
挽救 。 


如 果 应 用 、 存 储 管理 模块 同时 运行 在 分 布 式 系 
统 结 点 中 ， 这 类 系统 又 被 称 为 超 融 合 系统 (Hyper 
Converged Infrastructure, HCD 。 人 们 总 是 愿意 给 技 
术 名 词 起 一 些 商 业 名 称 ， 因 为 这 样 显得 更 加 上 档次 和 
平易 近 人 ， 以 及 更 易 包装 出 各 种 动人 的 故事 来 。 不 过 
目前 市 场 上 普遍 将 超 融合 系统 定义 为 运行 有 虚拟 机 管 
理 系 统 的 分 布 式 系统 ， 也 就 是 说 ， 分 布 式 系统 结 点 上 
运行 的 应 用 程序 是 虚拟 机 管理 系统 。 
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图 11-123 现 将 数据 进行 备份 以 防 二 次 破坏 


这 样 ， 利 用 通用 的 服务 器 + 网 络 交换 机 就 可 以 搭 
建 出 一 个 基础 架构 CIntrastructure) ， 在 这 个 基础 架 
构 上 可 以 虚拟 出 存储 〈 块 或 者 目录 ) 、VM 虚 拟 机 以 
及 网 络 〈 依 靠 虚拟 机 管理 系统 生成 的 虚拟 网 络 ， 也 就 
是 利用 内 存 交 换 数 据 的 虚拟 交换 机 ) 。 这 就 是 Hyper 
Converged 的 含义 。HCI 系 统 在 物理 上 就 是 一 堆 服务 器 
和 交换 机 ， 其 有 别 于 传统 架构 〈 业 务 服 务 器 + 集中 式 
SAN 存 储 系 统 ) 。 

国内 华 云 网 际 的 FusionStack 产 品 就 是 一 款 超 融合 
产品 。 如 图 11-124 所 示 为 FusionStack 超 融合 产品 特点 


FusionStack 超 融合 系统 的 底层 是 FusionStor 分 布 
式 块 存储 系统 ， 如 图 11-125 所 示 。Hypervisor (虚拟 
机 管理 系统 ) 作为 每 个 分 布 式 结 点 上 的 OS 和 虚拟 机 


基于 标准 X86 服 务 器 
集群 资源 池 化 管理 > 
标准 块 访问 接口 


虚拟 超 分 存储 资源 
降低 成 本 及 规划 复杂 度 
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Кегпе! bypass 架 构 < 
支持 SSD 缓 存 与 存储 分 层 
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网 际 


管理 程序 ， 向 虚拟 机 (VM) 提供 iSCSI 协议 的 块 存 
储 设 备 ，VM 内 部 采用 iSCSI Initiator 识 别 到 对 应 的 块 
设备 。 每 个 结 点 采用 SAS/SATA HBA 或 者 CPU 自 带 的 
SATA Controller 连 接 一 定数 量 的 SAS/SATA 硬 盘 。 所 有 
结 点 连接 在 10Gb 以 太 网 交换 机 上 。 

对 于 超 融 合 系统 来 说 ， 底 层 的 分 布 式 块 存储 的 
性 能 和 可 靠 性 至 关 重 要 。 如 图 11-126 和 11-127 所 示 ， 
FusionStor 分 布 式 块 存储 底层 采用 DPDK IO 加 速 库 ， 
在 用 户 态 实现 LO 协议 栈 及 设备 驱动 ， 完 成 1/O 不 需 
要 进入 内 核 ， 极 大 降低 了 LO 时 延 。 线 程 模型 采用 co- 
routine 用 户 态 协 程 ， 以 及 run-to-completion 的 polling 模 
型 ， 可 进一步 降低 UO 时 延 ， 增 加 CPU 执行 效率 ， 不 必 
浪费 太 多 时 间 在 内 核 级 线程 切换 上 。 结 点 间 互 传 数据 
采用 RDMA 技 术 ， 实 现 结 点 内 存 到 内 存 的 直接 数据 传 
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图 11-124 ”FusionStack 超 融合 产品 特点 一 览 
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下 等 协议 栈 处 理 ， 进 一 步 降低 时 


延 。 内 存 管理 方面 采 


巨 页 (Huge Page) 来 节省 系 


统 开 销 ， 提 升 内 存 使 


效率 。 


如 图 11-128 所 示 ， 


FusionStor 分 布 式 块 存储 系统 单 


结 点 的 4KB 随 机 读 IOPS 可 以 达到 每 秒 1300 万 次 。 这 个 


惊人 数字 ， 除 了 得 益 
采用 之 外 ， 与 用 户 态 


于 SSD 的 使 用 以 及 RDMA 技 术 的 
协议 栈 /驱动 、 协 程 和 Polling 模 型 


也 有 很 大 的 关系 。FusionStor 可 谓 是 将 性 能 优化 到 了 


极致 。 


FusionStor 还 支持 


自动 精简 配置 (Thin Provision) ~ 


存储 分 层 (Storage Tiering) 、 保 护 域 隔离 、 卷 级 QoS 控 
制 、 基 于 纠 删 码 的 多 副本 元 余数 据 保护 、 多 租户 隔离 、 
多 级 故障 保护 隔离 等 特性 ， 如 图 11-129 所 示 。 

FusionStack 超 融合 系统 采用 ZStack 模 块 实现 资源 
管理 配置 ， 如 图 11-130 所 示 。 


提示 > 
读者 如 果 有 兴趣 了 解 计 算 机 存储 系统 方面 更 多 


的 细节 ， 可 以 阅读 冬瓜 哥 的 另外 两 本 著作 : 《大 话 
存储 终极 版 》 和 《大 话 存储 后 传 》。 


话 计 算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


图 11-128 FusionStor 分 布 式 块 存储 单 结 点 实测 数据 
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可 在 故障 发 生 时 保障 数据 完整 
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11.2.6 ”数据 备份 和 容 灾 系统 


数据 备份 在 企业 数据 中 心中 ， 除 了 服务 器 、 网 
络 、 存 储 这 三 大 系统 之 外 ， 还 有 一 类 很 重要 的 系统 ， 
那 就 是 备份 和 容 灾 系统 。 重 要 的 话说 三 遍 ， 重 要 的 数 
据 起 码 要 备份 一 份 或 者 两 份 。 对 于 个 人 计算 机 场景 而 
言 ， 备 份 数据 的 方式 基本 上 就 是 将 数据 复制 到 移动 硬 
盘 或 者 云 盘 上 ， 或 者 刻录 到 蓝光 光盘 上 。 但 是 对 于 企 
业 级 服务 器 场景 ， 备 份 数 据 的 方式 就 会 复杂 很 多 。 首 
先 ， 企 业 级 服务 器 要 求 不 停机 备份 ， 这 样 的 话 ， 随 着 
数据 不 断 地 写 入 文件 ， 同 时 还 要 将 文件 复制 出 来 ， 那 
么 复制 出 来 的 文件 是 不 一 致 ( 一 份 文件 中 的 内 容 有 新 
有 旧 ， 并 不 是 某 个 单一 时 间 点 的 数据 映像 ) їй; 其 
次 ， 企 业 级 服务 器 数量 多 ， 存 有 的 数据 量 大 ， 需 要 有 
一 个 批量 、 快 速 的 数据 备份 方案 ， 还 有 ， 企 业 级 服务 
器 场景 对 数据 丢失 容忍 度 很 低 ， 基 本 上 每 天 要 求 备份 
一 次 ， 需 要 有 一 个 集中 的 备份 管理 系统 来 统一 管理 ; 
另外 ， 企 业 级 服务 器 场景 下 的 应 用 系统 种 类 繁多 ， 会 
有 更 多 的 细 化 备份 需求 ， 比 如 只 备份 数据 库 中 的 某 个 
子 库 ， 要 求 可 以 恢复 数据 到 任意 时 间 点 (Continuous 
Data Protection，CDP) 等 。 

在 企业 级 场景 下 ， 移 动 硬盘 肯定 是 不 能 用 于 备份 
的 ， 因 为 其 容量 太 小 。 目 前 主流 的 企业 级 备份 介质 是 磁 
带 和 硬盘 阵列 ， 或 者 云 盘 ， 或 者 三 者 兼 有 ， 备 份 多 份 。 

数据 备份 不 仅 能 够 防止 数据 的 物理 损坏 导致 数据 
丢失 ， 比 如 硬盘 损坏 等 ， 而 且 可 以 防止 数据 逻辑 损坏 
导致 的 数据 不 可 用 ， 比 如 大 面积 病毒 感染 、 数 据 校 验 
错误 、 数 据 误 删 除 等 。 

备份 好 的 数据 又 称 为 离线 数据 ， 离 线 数据 一 般 
会 与 在 线 数据 放置 在 同一 个 数据 中 心中 ， 这 样 会 存 
在 一 个 风险 ， 那 就 是 当 该 数据 中 心 遇 到 诸如 火灾 、 
洪水 、 地 震 等 灾难 时 ， 在 线 数 据 与 离线 数据 会 一 同 
被 损毁 。 历 史上 的 每 次 灾难 都 会 导致 一 些 企业 因为 
丢失 全 部 数据 直接 无 法 继续 运营 。 为 此 ， 一 些 对 数 
据 安全 要 求 高 的 企业 必须 部 署 容 灾 系 统 ， 容 灾 系 统 
的 作用 就 是 将 数据 在 相隔 较 远 的 异地 备份 一 份 ， 但 
是 备份 的 间隔 如 果 过 长 ， 比 如 一 天 ， 那 么 一 旦 灾难 
发 生 ， 将 会 丢失 一 天 内 的 所 有 新 数据 ， 这 对 企业 来 
讲 也 是 无 法 接受 的 。 所 以 ， 容 灾 系 统一 般 被 设计 为 
实时 地 将 生产 站 点 的 在 线 数据 的 变化 同步 到 灾 备 站 
点 的 存储 系统 中 。 为 此 ， 生 产 端 服务 器 或 者 存储 系 
统 中 需要 有 一 个 可 以 截获 上 层 下 发 的 所 有 写 IO 请 求 
的 驱动 模块 ， 该 模块 在 将 MO 数据 写 入 本 地 存储 系统 
的 同时 ， 也 会 将 写 IO 数据 通过 网 络 向 灾 备 端 发 送 。 
如 果 该 模块 仅 当 接收 到 灾 备 端的 Ack 消 息 后 ， 才 向 本 
地 的 VO 协议 栈 上 层 返 回 L/O 完 成 确认 (比如 调用 某 回 
调 函数 等 ) ， 那 么 这 个 容 灾 数据 复制 方式 被 称 为 同 
步 复 制 ， 同 步 复 制 模式 会 对 本 地 1/O 产 生性 能 影响 ， 
网 络 带 宽 越 低 ， 时 延 越 高 ， 性 能 影响 越 严 重 。 如 果 
该 模块 接收 到 本 地 写 IO 之 后 ， 写 入 本 地 硬盘 即 向 上 
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层 返 回 IO 完成 确认 ， 同 时 在 后 台 将 数据 复制 到 灾 
备 端 的 话 ， 那 么 生产 端 会 由 于 网 络 速度 比较 慢 而 导 
致 待 复制 的 数据 被 积压 ， 一 旦 此 时 发 生 灾难 ， 这 批 
积压 的 数据 将 会 永久 丢失 ， 这 个 方式 被 称 为 异步 复 
制 ， 异 步 复制 不 会 影响 本 地 的 IO 性 能 ， 但 可 能 会 导 
致 更 高 的 数据 丢失 量 ， 丢 失 量 取决 于 本 地 写 IO 的 带 
宽 以 及 本 地 和 远 端 之 间 的 网 络 带 宽 比 例 。 

金融 类 企业 对 容 灾 的 要 求 是 最 高 的 ， 一 般 要 求 将 
数据 实时 复制 给 两 个 灾 备 站 点 ， 其 中 一 个 与 生产 站 点 
距离 比较 近 ， 比 如 位 于 同城 ， 采 用 同步 复制 ， 另 一 个 
离 生产 站 点 比较 远 ， 比 如 位 于 相隔 几 千 千 米 的 另 一 个 
地 点 ， 采 用 异步 复制 。 这 种 拓扑 被 称 为 两 地 三 中 心 。 
这 样 可 以 防止 更 大 范围 的 自然 灾害 或 者 战争 带 来 的 数 
据 损毁 。 

只 备份 或 者 容 灾 了 数据 ， 是 不 够 的 ， 还 需要 
在 灾难 发 生 之 后 对 数据 进行 恢复 。 对 灾难 发 生 后 
导致 的 丢失 数据 量 的 期 望 被 称 为 RPO (Recover 
Point Objective) ;而 对 灾难 发 生 后 多 久 能 将 业务 
重新 恢复 上 线 的 期 望 ， 被 称 为 RTO (Recover Time 
Objective) 。 容 灾 系 统 中 最 重要 的 模块 其 实 是 灾难 
恢复 管理 子 系统 ， 越 快 恢复 和 上 线 ， 遭 受 的 损失 也 
就 越 低 。 现 代 的 容 灾 管 理 系统 ， 不 仅 管理 对 数据 的 
远程 复制 ， 还 需要 在 灾难 恢复 过 程 中 对 应 用 系统 有 
序 启动 、 切 换 等 过 程 做 精细 化 管理 。 关 于 硬盘 阵列 
和 磁带 库 、 备 份 和 容 灾 管理 系统 方面 的 知识 ， 请 参 
考 《 大 话 存 储 终极 版 》 一 书 。 

科 力 锐 (Clerware) 是 国内 技术 实力 较 强 的 备份 
容 灾 解决 方案 厂商 。 其 主打 两 个 系列 的 产品 ， 云 灾 备 
管理 系统 和 云 负载 迁移 平台 ， 这 里 主要 介绍 其 云 灾 备 
管理 系统 ， 其 整体 架构 如 图 11-131 所 示 。 

科 力 锐 的 云 灾 备 系统 的 基本 架构 中 包含 两 个 重要 角 
色 : 第 一 个 角色 是 一 台 用 于 接收 备份 数据 的 存储 服务 器 
(拥有 大 量 硬盘 的 服务 器 ) 一 一 智 动 全 景 灾 备 一 体 机 ， 
该 服务 器 也 可 以 挂 接 外 置 存储 系统 以 获取 更 大 的 存储 容 
量 。 第 二 个 角色 是 位 于 待 备 份 的 服务 器 操作 系统 中 运行 
着 的 客户 端 代 理 程序 (俗称 Agent) ，Agent 的 作用 是 读 
写 服 务 器 上 的 文件 或 者 硬盘 块 数据 然后 通过 网 络 传递 给 
灾 备 一 体 机 从 而 备份 数据 。 在 恢复 数据 时 ， 灾 备 一 体 机 
将 之 前 备份 的 数据 传递 给 Agent， 后 者 则 将 数据 写 入 服 
务 器 的 文件 系统 或 者 直接 写 入 块 设备 中 。 

当然 ， 灾 备 管理 系统 远 非 像 上 面 说 的 这 么 简单 。 灾 
备 一 体 机 上 一 般 需 要 实现 下 面 的 功能 ， 发现 和 管理 待 备 
份 的 服务 器 ， 实 现 定时 备份 ， 定 时 删除 过 期 备份 数据 ， 
文件 级 和 块 级 和 系统 级 备份 /恢复 管理 ， 对 备份 的 数据 
进行 重复 数据 删除 ， 实 现 快照 来 提供 历史 时 刻 点 数据 的 
细 粒 度 回 深 ， 实 现 异 构 平台 恢复 ( 指 源 服务 器 和 目标 服 
务 器 使 用 了 不 同 的 硬件 平台 或 者 不 同 的 外 部 设备 ) 。 

科 力 锐 公司 的 智 动 全 景 灾 备 一 体 机 除了 具备 上 述 
基本 功能 之 外 ， 还 实现 了 多 个 特色 技术 。 实 现 这 些 技 
术 要 求 开发 者 对 操作 系统 内 核 了 如 指 掌 ， 如 下 这 些 才 
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图 11-131 科 力 锐 云 灾 备 管理 系统 全 局 架构 示意 图 


是 真正 的 核心 关键 技术 。 

(OD 块 级 CDP 连 续 数据 保护 。CDP 技 术 相 当 于 
对 数据 的 每 一 笔 变化 进行 精确 记录 ， 从 而 可 以 让 用 
户 在 灾难 发 生 后 ， 将 数据 回 滚 到 之 前 的 任意 时 间 点 。 
CDP 技 术 可 以 极 大 降低 RPO。 

(2) 异 构 平 台 恢 复 。 支 持 p2v、v2p、v2v、p2p 
任意 平台 整 机 恢复 。 做 到 这 一 点 相当 不 容易 ， 因 为 平 
台 的 硬件 环境 可 能 有 很 大 区 别 ， 比 如 目标 系统 下 有 某 个 
特殊 硬件 ， 而 源 系统 备份 映像 内 并 不 包含 这 个 硬件 的 驱 
动 程序 ， 那 么 恢复 之 后 该 硬件 就 无 法 使 用 。 科 力 锐 采用 
虚拟 PCI 设 备 以 及 驱动 注入 专利 技术 来 实现 对 备份 映像 
的 预 处 理 ， 确 保 异 构 平台 的 正常 恢复 。 

(3) 无 须 启动 盘 的 系统 级 快速 恢复 。 如 果 要 做 
整 机 恢复 (启动 盘 恢 复 ) ， 一 般 都 要 使 用 可 引导 光 
盘 、U 盘 或 者 网 络 盘 来 启动 目标 系统 ， 在 DOS 或 者 定 
制 的 环境 界面 下 把 之 前 备份 的 操作 系统 和 数据 读 取 过 
来 恢复 到 目标 系统 的 硬盘 上 。 这 个 过 程 非常 烦琐 ,而 
且 一 些 公有 云 上 面 的 主机 并 不 提供 上 述 操作 的 支持 。 
有 相当 一 部 分 场景 的 需求 是 即便 目标 机 系统 正常 ， 用 
户 依然 想 把 整 机 直接 恢复 到 之 前 某 个 时 间 点 。 科 力 锐 
无 启动 盘整 机 恢复 专利 技术 ， 可 以 利用 目标 机 上 的 
Agent 接 收 用 于 恢复 的 映像 数据 ， 然 后 直接 写 入 目标 
机 硬盘 ， 写 入 完成 后 重启 即 可 恢复 目标 机 。 大 家 一 定 
好 奇 ， 目 标 系统 依然 运行 的 同时 ， 底 层 硬盘 竟然 可 以 
被 瞒天过海 地 全 部 覆盖 ， 此 时 系统 难道 不 会 月 溃 么 ? 
这 就 是 科 力 锐 的 专利 技术 了 ， 大 家 可 以 自行 研究 。 

(4) 边 恢复 边 启动 边 使 用 。 如 果 目 标 机 位 于 网 
络 远 端 或 者 云端 ， 那 么 传输 整个 整 机 备份 映像 所 需 
要 的 时 间 会 很 长 ，RTO 太 长 。 科 力 锐 采用 分 级 恢复 的 
专利 技术 ， 先 把 用 于 系统 启动 的 关键 数据 块 传输 到 远 
端 ， 传 输 完 成 后 ， 远 端 目标 系统 即 可 启动 并 运行 ， 剩 
下 的 数据 由 目标 系统 内 的 Agent 代 理 程序 在 后 台 不 断 


地 从 灾 备 一 体 机 中 接收 并 持续 写 入 目标 机 硬盘 ， 目 标 
机 系统 启动 过 程 中 对 数据 的 IO 操作 ， 会 被 Agent 实 时 
从 灾 备 一 体 机 上 调 入 ， 从 而 实现 边 恢复 边 启动 边 使 
用 。Agent 会 在 15min 完 成 启动 关键 数据 以 及 二 级 热 数 
据 块 的 恢复 ， 剩 余 的 大 量 冷 数据 会 在 后 台 逐 步 恢复 。 

(5) 识别 深层 次 数据 结构 从 而 降低 数据 复制 量 。 凭 
借 强悍 的 技术 实力 ， 科 力 锐 可 以 实现 直接 感知 底层 数据 
格式 ， 从 而 只 复制 那些 被 数据 占用 的 数据 块 ， 极 大 降低 
数据 复制 量 。 可 支持 的 数据 格式 有 : FAT, NIFS, EXT, 
XFS、BTRFS、RAC-ASM、RAC-OCFS、RACRAW 等 。 

(6) 可 以 在 一 体 机 上 直接 启动 虚拟 机 。 前 文中 提 
到 过 ， 灾 难 恢复 更 重要 的 环节 是 业务 的 启动 。 而 如 果 在 
灾 备 端 时 刻 准备 好 一 些 物 理 服务 器 用 于 灾难 发 生 之 后 启 
动 起 来 运行 业务 系统 的 话 ， 这 个 成 本 太 高 ， 毕 竟 灾 难 是 
小 概率 事件 。 为 此 ， 科 力 锐 全 景 智 动 灾 备 一 体 机 上 提供 
了 虚拟 机 管理 平台 ， 可 以 直接 在 其 上 创建 并 启动 虚拟 
机 ， 采 用 虚拟 机 上 的 业务 系统 来 处 理 灾 备 端的 数据 从 而 
恢复 业务 ， 成 本 会 大 大 降低 。 

由 专业 人 员 开 发 的 产品 必然 是 专业 的 ， 不 仅 技 
术 接 地 气 ， 做 出 来 的 产品 使 用 起 来 也 透 着 一 股 工匠 般 
的 气质 。 体 现在 : УЖЕ НЫ ДЖИ, ЛЫШ EF 
很 多 提示 能 够 让 用 户 很 容易 地 看 出 来 每 一 步 的 目的 以 
及 后 台 要 做 的 事情 而 不 会 感到 迷茫 。 很 多 软件 用 起 来 
很 费劲 ， 比 如 脑海 中 经 常会 问 出 “是 不 是 可 以 点 下 一 
步 ”，“ 这 个 选项 到 底 是 什么 意思 ”这 种 问题 ， 这 类 
软件 就 是 没有 抓 住 使 用 者 的 场景 ， 或 者 对 产品 和 技术 
理解 不 到 位 。 科 力 锐 的 灾 备 一 体 机 控制 界面 体现 出 实 
打 实 的 技术 实力 和 对 整个 灾 备 管理 流程 以 及 用 户 操作 
体验 的 深刻 理解 。 

如 图 11-132 所 示 ， 科 力 锐 灾 备 一 体 机 的 管理 界面 
采用 Web 页 面 方式 ， 在 每 一 步 操作 中 都 会 有 足 量 的 提 
示 ， 用 户 甚至 不 需要 去 阅读 临 涩 的 使 用 手册 就 可 以 轻 


易 上 手 操 作 。 

如 图 11-133 所 示 为 恢复 数据 时 的 界面 ， 从 中 可 以 
看 到 每 个 备份 的 开始 时 间 〔 精 确 到 微 秒 ) 、CDP 可 回 
滚 的 时 间 段 。 点 击 每 个 备份 会 提示 要 将 该 备份 做 怎样 
的 处 理 ， 是 直接 挂 载 给 另 一 台 目 标 机 使 用 〈 接 管 主 


机 ) ， 还 是 想 提取 该 备份 中 的 文件 (文件 恢复 ) ， 还 
是 想 把 整个 卷 恢复 到 源 机 器 上 〈 卷 恢复 ) ， 或 是 将 备 
份 映 像 采 用 无 启动 盘 方式 直接 恢复 到 目标 机 。 
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选择 了 恢复 方式 之 后 ， 会 进入 CDP 时 间 点 选择 

窗口 ， 在 这 里 用 户 可 以 选择 将 哪个 历史 时 刻 的 备份 

映像 进行 恢复 。 科 力 锐 的 CDP 可 以 做 到 微 秒 级 的 时 

间 粒 度 ， 也 就 是 说 可 以 把 系统 恢复 到 ls 之 前 。 
如 图 11-134 左 侧 所 示 为 异 构 平台 恢复 时 的 驱动 选 

择 界面 。 如 图 11-134 右 侧 所 示 为 将 备份 的 数据 直接 挂 

载 给 一 台新 创建 的 虚拟 机 的 配置 过 程 ， 整 个 配置 过 程 

快捷 、 清 晰 。 


> SORIA» иван 


E CEL UL 2СОВК2(192.168.139.11192.168.1] 


эмина: ARATA (M: 5853568)“ 


вези: соонун” 


J cmm 


BREEN, склоне man. 


нё: SERE FEEHRAREET: 
qui RAPA. BANAS ТЕБЕ ЖОШ, PP 
Re 


Pe rte ORC 
иа Э ЗЧ ШУТ? ТТІ bla 
ПІЗ Тыл тт OBALE- ROSIER AKRA RARI HORS, (d 
РАУЛ анун: SRS MIS ИА ТУСАН, SUED 


таана, ї#тдшанаайкт. ип жт кия жиян). ARAI Үт 
o SIS RANCIHER - 


везати: 


50. Sever Оз Si Exchange Server Mango DB 
De sQ. ром. Lr 


Lotus Domino 
— ово 


11-132 科 力 锐 灾 备 一 体 机 配置 界面 


a © 


BEREE pito. пем172 161691771721611) -|ша2иво2; mapasa m 


aetas. Ta 


11-133 ” 科 力 锐 灾 备 一 体 机 恢复 时 的 界面 之 一 


KUPONA. залази BUR прати приволи SOPHIA, 
O M SENE (m) 
а мнений ва) 

жанама: жал- рат ЛЕНТЫ: 

а.) 

° scsi юма 

O filis ClerWare virtio(29ffgbc90d343esff4a5b649fb499e483183b5le); 
201688118; Red Hat VrtIO SCSI controller; 
РСІМУЕН, 1AFARDEV, 10018548575, 00021AF4BREV. 00: 
O mwa жанынан»? 
Yio 42e22cdcbecs010299dose91cf642+fte9116); 201687F12B; 
Sangfor Fast1O SCSI controller 
PENVEN JAFADEV. 10018SUBSYS_00021AF 48REV_00 
O наша илена 
Virtio(2987b95f936096c26e2b931bfb899bce37777446); 20158119138: 
Tencent VirtIO SCSI controller; 


«+» T 


Эсен? 2010-07-26703:1224 125617 
пене 2018-07-26700: 1101 500685. 
52:36 205068 ЕШШ 2:07. 27703 1022 372641 
4351607216 ра 201007: 11:00417935 


%% СОР 2015-07:2570522:41,605 REE) ER) (жен) (Бели 
Шо 2018.07.257+603.03.600077 ӘИТ 77 727001056 50735: 


名 称 : B808-gtsvr_new(172 16.169 1771172 16 1 11)2018-07-28 133921033865 | 
CPUS : 208 (最 大 可 用 CPU 以 数 : 48) 


аянын: [7 
ы :[2 > 
REXNE ][GB "|( 最 大 可 用 : 7167MB ) 


GEISUGUAUERSETHOR. smua СЕГЕ: 19354568] 7) 
x museo 


L 
| БОА 


11-134 ” 异 构 平台 恢复 时 的 驱动 选择 、 将 数据 直接 挂 载 给 虚拟 机 


IO 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


如 图 11-135 左 侧 所 示 为 科 力 锐 全 景 智 动 一 体 机 在 
企业 数据 中 心中 的 典型 应 用 场景 。 多 台 全 景 智 动 一 体 i 
机 之 间 可 以 实现 同步 、 异 步 远程 复制 ， 形 成 两 地 三 中 ii 
心 等 拓扑 。 如 图 11-135 右 侧 所 示 为 科 力 锐 全 景 智 动 一 | 
体 机 应 用 在 Oracle RAC 集 群 时 的 灾 备 拓扑 。 { 

| 
š 


Jdevitam]rawx 
ГЛ 
mm 


如 图 11-136 所 示 为 科 力 锐 全 景 智 动 灾 备 一 体 机 在 
云 数据 中 心 灾 备 场景 下 的 案例 拓扑 。 

火星 高 科 CMarstor) 是 2002 年 成 立 的 国内 老牌 存 
储备 份 容 灾 厂 商 ， 在 数据 备份 及 存储 领域 有 很 深厚 的 
积累 ， 也 在 不 断 地 创新 与 引领 主流 备份 技术 的 发 展 。 
其 主打 产品 为 火星 舱 存 储 容 灾 一 体 机 ， 全 新 的 架构 如 
图 11-137 右 图 所 示 。 

虽然 CDM (Copy Data Management， 副 本 数据 管 
EB) 是 灾 备 领域 近年 来 出 现 的 新 概念 ， 火 星 高 科 CDM 
技术 却 早 在 2015 年 便 已 出 现在 其 产品 线 中 ， 着 实 是 国 
内 的 先行 者 。CDM 这 个 技术 概念 的 出 发 点 就 在 于 它 
并 不 关心 数据 是 怎么 拿 到 的 ， 比 如 是 通过 传统 备份 亦 
或 是 CDP， 也 不 关心 数据 放 在 哪里 ， 比 如 本 地 硬盘 、 
SAN、 分 布 式 存储 、 云 存储 等 。 它 注重 的 是 如 何 将 获 
取 到 的 数据 更 好 地 管理 和 利用 ， 以 及 更 好 地 与 应 用 相 
结合 的 利用 ; 以 及 如 果 通 过 CDM 数 据 保护 技术 而 产生 
的 历史 事件 点 的 Image 实 现 数据 的 快速 恢复 ， 业 务 的 
快速 重建 /上 线 ， 场 景 重 现 ， 模 拟 演练 等 需求 ， 使 备份 
数据 能 够 产生 更 多 的 价值 。 火 星 高 科 的 CDM 管 理 系统 
架构 如 图 11-138 所 示 。 

如 图 11-139 所 示 为 炎 星 CDM 系 统 在 虚拟 机 和 数据 
库 场 景 下 的 应 用 架构 。 如 图 11-140 所 示 为 火星 舱 CDM 
系统 即时 恢复 和 即时 数据 使 用 场景 示意 图 。 

随 着 大 数据 时 代 的 来 临 ， 企 业 面 对 市 场 的 竞争 ， 
开始 考虑 如 何 提高 数据 的 使 用 价值 ， 挖 掘 出 数据 中 隐 
藏 的 有 效 信息 ， 从 而 快速 提升 企业 的 核心 竞争 力 。 企 
业 的 生产 数据 ， 已 不 仅 用 于 业务 生产 ， 还 有 很 多 非 生 
产 环境 中 也 需要 这 些 数据 的 支持 。 开 发 和 测试 新 系统 
时 ， 需 要 复制 生产 数据 到 研发 环境 中 ; 在 数据 统计 和 
分 析 时 ， 也 需要 将 生产 数据 的 实时 或 历史 副本 。 

相 比 火星 高 科 主 打 的 CDM 数 据 保 护 技术 ，CDP 持 
续 数据 保护 技术 也 是 其 提供 数据 保护 的 一 个 利器 。 火 
星 舱 内 置 的 CDP 技术 充分 发 挥 了 高 速 磁盘 介质 的 特点 , 
秉承 当 数 据 写 入 存储 设备 时 即 完成 保护 的 原则 , 有 效 消 
除了 备份 窗口 , 真正 实现 RPO=0。 同 时 , 由 于 采用 数据 
块 级 同步 技术 , 保障 火星 舱 与 源 存储 设备 高 度 一 致 , 从 
而 实现 无 须 恢复 过 程 即刻 挂 载 , 甚至 达到 ЕТО-0. i 

传统 CDP 利 用 记录 基准 数据 和 增 量 数据 日 志 ， 然 n i pem ; 
后 对 日 志 做 索引 处 理 的 方式 ， 能 够 让 用 户 在 较 短 的 时 ы i : i 
间 内 看 到 历史 时 刻 数据 的 任意 副本 。 火 星 高 科 的 CDP 
更 加 侧重 于 存储 技术 的 快照 技术 ， 结 合 数据 重 删 以 及 
数据 压缩 技术 时 CDP 数 据 保护 颗粒 度 更 小 ， 精 准 度 更 
高 ， 快 照 周 期 更 细 。 与 CDM 技 术 类 似 ， 其 单一 快照 时 
刻 可 生成 无 限 份 数据 副本 的 技术 ， 也 使 得 被 保护 的 数 
据 能 够 产生 更 大 的 价值 。 火 星 高 科 CDP 技 术 基本 数据 
流 架构 如 图 11-141 右 侧 所 示 。 
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图 11-135 ”通用 灾 备 场景 、Oracle RAC 灾 备 场景 
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四 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 
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11-140 ”火星 舱 CDM 系 统 即 时 恢复 和 即时 数据 使 用 场景 示意 图 


CDM 和 CDP 各 有 优 劣 ， 特 征 鲜明 ， 在 同一 设备 
中 承载 不 同 灾 备 功能 才 是 王道 。 

如 图 11-141 所 示 为 火星 舱 灾 备 一 体 机 的 传统 保护 
数据 流 架构 ， 相 较 于 CDM 与 CDP 的 主流 数据 保护 技 
术 ， 火 星 舱 灾 备 一 体 机 还 涵盖 了 如 下 几 大 功能 。 

а) 数据 备份 。 火 星 舱 内 置 了 火星 高 科 历 经 10 
年 自主 研发 企业 级 备份 软件 。 火 星 舱 将 备份 服务 器 、 
介质 服务 器 、 虚 拟 磁带 库 、 支 持 重复 数据 删除 的 硬盘 
存储 及 配套 相关 软件 均 集成 到 一 套 设备 上 , 在 降低 用 
户 备份 总 体 拥有 成 本 的 同时 , 减少 了 系统 集成 的 复杂 
性 。 一 站 式 解 决 方案 大 大 简化 了 后 期 运 维 的 难度 。 

(2) 统一 存储 。 火 星 舱 智能 存储 系统 , 不 但 在 单 
一 硬件 设备 上 提供 了 传统 SAN+NAS 硬盘 阵列 的 功 
能 ， 还 具备 多 项 独特 的 实用 特性 一 一 SSD 读 写 缓存 、 
自动 精简 配置 、 重 复数 据 删除 、 压 缩 、 无 限 快照 、 远 
程 复制 容 灾 等 。 

(3) 虚拟 磁带 库 。 火 星 舱 虚拟 磁带 库 设备 基于 
高 性 能 、 可 扩展 性 强 的 企业 级 x86 架 构 , 可 将 硬盘 阵列 


模拟 成 大 容量 磁带 存储 设备 。 支 持 重复 数据 删除 技术 ， 
可 最 大 限度 地 节省 硬盘 空间 , 完整 模拟 各 主流 磁带 库 
厂商 的 多 种 型 号 磁带 机 СЕ) 产品 。 

(4) 虚拟 机 容 灾 接管 。 火 星 舱 系列 作为 火星 高 
科 企 业 级 架构 产品 的 主力 , 拥有 成 熟 的 内 置 虚 拟 机 功 
能 。 可 充分 有 效 地 利用 硬件 设备 , 实现 多 对 一 的 虚拟 
化 容 灾 。 同 时 也 可 以 利用 虚拟 化 技术 实现 灾 备 系统 的 
验证 , 进行 灾难 恢复 演练 。 


11.27 云 计算 和 云 存 储 


有 些 用 户 不 希望 自己 购买 一 大 堆 的 服务 器 、 网 
络 和 存储 设备 。 原 因 有 多 方面 : 这 些 设备 购买 之 后 利 
用 率 很 难保 证 ， 会 有 很 大 闲置 ， 需 要 投入 人 力 对 这 些 
设备 进行 日 常 运 维 ， 随 着 业务 的 发 展 可 能 需要 对 这 些 
设备 进行 更 新 换代 投入 额外 成 本 ; 企业 内 部 需要 设置 
独立 的 机 房 容纳 这 些 设备 ， 企 业 并 非 想 长 期 使 用 IT 系 
统 ， 可 能 只 是 短期 使 用 。 
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机 房租 用 > 


上 述 第 4 个 痛 点 ， 可 以 通过 租用 一 些 
IDC (Internet Data Center ) 机 房 中 的 机 柜 
位 置 和 网 络 带宽 来 解决 。 各 大 电信 运营 商 
均 拥有 各 自 的 机 房 可 对 外 租用 ， 由 于 它们 
本 身 掌 握 着 网 络 带宽 资源 ， 自 建 的 数据 中 
心 可 以 顺利 方便 地 获得 对 应 的 网 络 带宽 资 
源 。 一 些 用 户 没 有 条 件 建设 自己 的 数据 中 
心机 房 ， 所 以 将 购置 的 各 种 IT 设备 直接 放 
置 到 公 租 机 房 中 ， 远 程控 制 ， 并 可 以 租用 
第 三 方 运 维 公司 提供 的 运 维 服务 。 但 是 这 
种 方式 无 法 解决 上 述 前 三 个 痛 点 。 
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截取 写 I/O 镜 像 写 入 到 火星 舱 


如 果 能 够 有 一 个 公共 的 服务 器 、 存 储 资 
源 池 ， 用 户 可 以 随时 租用 池 中 的 设备 ， 由 专 
门 的 人 负责 运 维和 运营 这 个 资源 池 ， 用 户 通 
过 网 络 远程 操作 租 来 的 服务 器 、 存 储 、 网 络 
资源 ， 并 通过 网 络 将 业务 部 署 到 这 些 资源 之 
上 ， 这 样 就 可 以 解决 上 述 4 个 痛 点 。 于 是 ， 人 
们 将 这 种 集中 运营 并 将 资源 出 租 的 模式 称 为 
云 计 算 。“ 云 ”这 个 词 来 源 于 微软 PowerPoint 
软件 中 的 一 个 云 状 的 图 形 ， 人 们 在 制作 各 种 
PPT 时 ， 常 将 该 图 形 用 于 圈 起 一 堆 设 备 图 标 ， 
用 于 表示 一 堆 设 备 或 者 一 个 子 系统 ， 而 数据 
中 心 这 个 大 资源 池 恰 好 就 是 一 堆 设备 ， 于 是 
人 们 也 就 顺口 把 这 一 大 堆 资源 称 为 云 了 。 
趣闻 > 

有 趣 的 是 ，PowerPoint 软 件 老 版 本 中 只 
提供 如 图 11-142 左 侧 所 示 的 云图 形 ， 人 们 作 
PPT 的 时 候 不 得 不 将 箭头 指向 的 那 几 个 较 图 
缩 成 如 图 中 间 所 示 的 状态 ， 显 得 很 怪异 。 
在 后 来 版 本 的 PowerPoint 软 件 中 ， 微 软 提供 


核心 业务 系统 
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本 地 磁盘 


图 11-141 火星 舱 灾 备 一 体 机 的 基本 数据 流 架构 


а " 了 一 个 去 掉 了 这 几 个 围 的 云图 形 。 

| 

a =< 
š _ š g 云 运营 商 如 果 将 IT 资源 按照 物理 粒度 和 
55 р = $ dd 用 给 用 户 的 话 ， 上 述 第 一 个 痛 点 仍然 无 法 解 
із в gl Ë Š #5 а. а, шимен, ТОНЕР 
E D Е od š Š 41 物理 服务 器 上 运行 多 个 虚拟 服务 器 ， 云 运营 
а 5 gen BES BE 商 普遍 采用 虚拟 化 方式 来 出 租 计算 资源 。 而 
Я Е к сво ШШ EM 存储 系统 原本 就 可 以 划分 为 更 细 的 粒度 ， 也 
sas B BER наз NS 就 是 罗 辑 卷 块 设备 ， 所 以 虚拟 机 + 逻辑 卷 的 
š ш # 8 Е] 8 | Ë à E z E E 方式 可 以 将 物理 资源 切 分 为 足够 细 粒度 的 租 
LER Я Bugs Ek 55 用 单位 ， 大 幅 提 升 IT 资 源 利用 率 。 除 了 逻辑 
852 Е ЕРЕ РЕНЕ Li 卷 之 外 ， 用 户 还 需要 NFS/CIFS 协 议 的 网 盘 、 
Ш š E a E d š 2 E] š š ік š š Object (对象) 访问 协议 的 对 象 存储 、 其 他 一 

Ен š Е # a % Б š š | 5 ў Fi 8 хх 些小 众 协议 或 者 私有 协议 访问 的 存储 形式 ， 

EEF EEE EEE 云 运营 商 也 需要 提供 。 

© © © © © 另外 ， 为 了 降低 采购 成 本 和 运 维 成 本 ， 
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C ое р? 


图 11-142” PowerPoint 软件 中 两 个 版 本 的 云图 形 


云 运营 商 一 般 不 采用 小 型 机 、SAN 存 储 系统 等 封闭 、 
高 端的 系统 ， 而 是 普遍 采用 标准 机 架 式 服务 器 + 服务 
器 内 置 硬盘 方式 ， 通 过 网 络 将 这 些 资源 整合 成 一 个 分 
布 式 存储 系统 (上 文 介 绍 过 ) 。 用 于 云 计算 基础 架构 
的 存储 系统 被 泛称 为 云 存 储 。 云 存储 普遍 采用 分 布 式 
存储 架构 来 获取 低 成 本 、 高 可 扩展 性 以 及 统一 的 运 维 
方式 。 但 是 这 并 不 表示 传统 的 SAN 存 储 系 统 就 不 可 以 
是 云 存储 ， 如 果 在 云 计算 时 采用 SAN 存 储 并 以 服务 
的 形式 出 租 ， 那 么 SAN 存 储 此 时 也 算是 云 存储 了 。 
所 以 说 ， 凡 是 位 于 云 计算 基础 架构 中 的 可 租 售 的 存储 
系统 ， 都 叫 云 存储 。 不 过 为 了 遵循 主流 场景 ，“ 云 存 
储 ” 目 前 泛 指 分 布 式 存储 系统 以 及 构建 在 其 上 的 各 种 
存储 访问 协议 和 服务 。 

出 租 虚 拟 机 + 逻辑 卷 /网 络 盘 的 方式 被 称 为 I[AAS 
(Infrastructure As a Service) ， 意 思 就 是 用 户 租 
用 的 是 IT 基 础 架构 设施 (服务 器 、 存 储 系统 、 网 
络 ) 。 用 户 通过 SSH/Telnet 字 符 方式 或 者 图 形 方式 远 
程 登录 到 虚拟 机 上 ， 进 行业 务 的 安装 部 署 以 及 网 络 
的 配置 。 

有 些 用 户 连 一 些 基本 的 软件 平台 也 不 想 去 亲自 
部 署 ， 而 是 希望 云 提供 商 预 先 在 虚拟 机 上 部 署 好 一 堆 
的 基础 平台 软件 ， 比 如 各 种 数据 库 、 中 间 件 平台 、 开 
发 平台 、Web 服 务 等 。 用 户 直接 向 云 提供 商 租 用 这 些 
软件 平台 服务 ， 这 种 模式 被 称 为 PAAS (Platform As a 
Service) 。 

有 些 用 户 彻底 不 想 去 费劲 地 租用 任何 基础 设施 、 
软件 平台 ， 而 是 想 直接 租用 云 提供 商 部 署 好 的 最 终 业 
务 平台 ， 比 如 邮件 服务 器 、 销 售 管理 系统 、 财 务 管理 
系统 等 办 公平 台 ， 这 些 平台 完全 由 云 提供 商 负责 后 台 
管理 维护 ， 用 户 只 管 登录 使 用 就 好 了 。 这 种 模式 被 称 
为 SAAS (Software As a Service) 。 人 们 平时 使 用 的 
各 大 运营 商 上 提供 的 免费 邮箱 、 各 种 网 站 等 ， 本 质 上 
就 是 SAAS 模 式 ， 只 不 过 很 多 网 站 、 邮 箱 ， 都 是 免费 
浏览 和 使 用 ， 当 然 也 有 收费 的 。 

还 有 一 种 更 细 粒 度 的 服务 提供 方式 ， 提 供 API 供 
用 户 调 用 ， 用 户 仅 当 调 用 该 API 时 ， 才 会 动态 地 调用 
云端 的 服务 。 比 如 某 种 计算 需要 大 量 的 服务 器 CPU 
资源 才能 在 可 接受 的 时 间 内 完成 ， 而 用 户 本 地 根本 
没有 这 么 多 资源 ， 此 时 可 以 借助 对 应 的 API， 用 户 本 
地 的 程序 直接 调用 云 厂 商 提供 的 API， 将 需要 计算 
的 数据 上 传 到 云端 并 在 大 量 服务 器 或 者 GPU 上 启动 
进行 计算 ， 计 算 完 毕 后 返回 结果 给 用 户 本 地 程序 。 


这 被 某 些 厂商 称 为 AAAS (АРІ Аз a Service). 或 者 
FAAS (Function As a Service) ， 也 就 是 所 谓 的 函数 
计算 。 

上 面 介绍 的 是 公有 云 ， 意 味 着 云 提供 商 面向 广泛 
的 不 特定 用 户 租 售 IT 资 源 。 还 有 一 类 私有 云 ， 一 般 是 
指 某 个 大 型 企业 内 部 完全 自 购 所 有 IT 系 统 软 硬件 ， 但 
是 采用 云 的 思想 来 管理 运营 ， 将 IT 系 统 变 得 可 运营 、 
可 量化 、 可 计 费 ， 而 且 也 采用 虚拟 化 技术 来 提升 资源 
使 用 率 和 资源 分 配 的 灵活 性 。 
Еж» 

目前 市 场 上 有 一 些 开源 的 、 用 于 管理 云 中 所 有 
资源 的 分 配 、 量 化 、 监 控 的 云 平 台 管理 系统 ， 比 如 
OpenStack、CloudStack 等 各 种 x x x Stack。 有 不 少 


云 运营 商 的 管理 平台 都 是 基于 这 些 管理 平台 做 了 二 
次 开发 而 成 的 。 


那么 ， 用 户 到 底 怎么 向 云 运营 商 购买 这 些 IT 资源 
呢 ? 通常 ， 云 运营 商会 提供 一 个 Web 页 面 ， 用 户 登 录 
之 后 ， 通 过 网 页 来 申请 、 购 买 对 应 的 资源 。 下 面 我 们 
以 国内 知名 云 提供 商 七 牛 云 来 举例 。 如 图 11-143 所 示 
为 成 立 于 2011 年 的 老牌 云 提供 商 七 牛 云 提供 的 各 种 资 
源 ， 可 以 看 到 有 IAAS、PAAS、SAAS、FAAS 级 别 的 
各 种 资源 可 供 购 买 。 

如 图 11-144 所 示 ， 用 户 登 录 七 牛 云 资源 管理 网 页 
之 后 ， 会 看 到 各 种 资源 的 列表 和 介绍 。 如 图 11-145 所 
示 为 在 七 牛 云 管理 界面 中 创建 云 主机 的 过 程 。 可 以 选 
择 包 年 或 包月 方式 或 者 按 量 付费 方式 ， 以 及 选择 在 何 
处 的 数据 中 心中 创建 该 虚拟 机 。 如 图 右 侧 所 示 ， 七 牛 
云 提供 了 几 十 种 不 同 规格 的 虚拟 机 配置 以 满足 不 同 场 
景 的 需求 。 

如 图 11-146 所 示 ， 七 牛 云 为 虚拟 机 提供 了 原生 的 
各 类 操作 系统 安装 镜像 可 供用 户 选择 ， 每 个 操作 系统 
又 可 以 选择 多 个 不 同 版 本 。 如 果 用 户 需 要 在 虚拟 机 上 
安装 自 定义 的 系统 ， 则 可 以 选择 “私有 镜像 ”。 

如 图 11-147 所 示 是 为 该 虚拟 机 配置 网 络 以 及 存储 
系统 ， 有 两 类 云 存储 可 选 ， 分 别 为 高 效 云 盘 和 SSD 云 
盘 ， 以 满足 不 同 的 性 能 需求 。 

七 牛 云 也 提供 了 数据 快照 服务 ， 可 用 于 在 数据 误 
删 、 病 毒 感染 之 后 将 数据 恢复 到 之 前 的 历史 版 本 ， 如 
图 11-148 所 示 。 七 牛 云 支持 定时 快照 ， 并 支持 直接 回 
滚 整 个 硬盘 数据 到 历史 版 本 。 
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图 11-145 在 七 牛 云 管理 界面 中 创建 云 
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图 11-146 在 七 牛 云 管理 界面 中 创建 云 主 机 (2) 
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图 11-148 七 牛 云 的 快照 管理 界面 


用 户 可 以 创建 多 个 云 主机 和 云 硬盘 ， 并 可 以 将 云 ”对 象 存储 ， 管 理 界面 如 图 11-150 所 示 。 
硬盘 挂 载 到 任意 云 主机 。 如 图 11-149 所 示 为 所 有 建立 存储 层 是 最 为 关键 的 一 层 。 七 牛 云 对 象 存储 系统 
好 的 云 主 机 和 云 硬盘 列表 。 С Kodo) 是 七 牛 云 团队 完全 自主 研发 的 一 套 高 性 能 
七 牛 云 对 新 注册 的 用 户 提供 一 些 免费 资源 ， 比 如 ”海量 数据 存储 系统 。 七 牛 云 对 象 存储 系统 采用 了 EC 


(Erasure Code, AME) 技术 实现 底层 存储 引擎 ， 
系统 运行 于 普通 x86 设 备 上 ， 最 大 化 系统 的 读 写 性 
能 ， 同 时 具备 接近 于 无 限 的 扩容 能 力 。 

如 图 11-151 所 示 ， 纠 删 码 技术 为 Kodo 系 统 提供 
了 很 强 的 容错 能 力 。 纠 删 码 算法 的 基本 流程 如 下 : 
先 把 文件 切割 成 N 份 ， 然 后 对 这 N 份 数据 生成 M 份 
匈 余 校 验 数 据 。 当 这 N+M 份 数据 任意 丢失 M 份 ， 系 
统 仍然 能 够 恢复 回 原始 的 文件 内 容 。 可 以 看 出 ， 只 
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要 M > 2, Койдой Mik BI FIK РЕН Bl Жл, 
余 架 构 的 可 靠 性 ， 从 而 消除 传统 三 副本 存储 系统 中 
不 能 同时 超过 两 块 硬盘 损坏 的 局 限 性 。Kodo 使 用 
的 N+M 策 略 是 28+4， 即 针对 28 份 数据 生成 4 份 元 余 
校 验 数据 。 这 个 选择 可 以 比较 好 地 平衡 数据 安全 性 
和 修复 性 能 。 该 元 余 策略 所 带 来 的 额外 成 本 非常 低 
廉 ， 而 数据 可 靠 性 却 远 高 于 传统 云 存 储 服务 的 三 副 
本 方案 。 


图 11-149 所 有 建立 好 的 云 主 机 和 云 硬盘 列表 
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图 11-150 在 七 牛 云 管理 界面 中 创建 对 象 存储 
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图 11-151 纠 删 码 原理 示意 图 
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Kodo 系 统 的 架构 设计 具有 三 个 特点 : 
“ 自 协商 ”和 “关键 细节 ”。 

群集 设计 足够 简单 清晰 ， 才 能 让 每 个 组 件 的 设计 
实现 非常 清晰 ， 而 且 整 个 群集 的 可 靠 性 会 大 幅 提高 。 
Kodo 系 统 对 底层 实现 的 功能 做 减法 而 非 加 法 ， 比 如 
Kodo 系 统 为 保证 性 价 比 而 采用 SATA 盘 做 顺序 写 入 。 
Kodo 系 统 内 部 每 个 组 件 都 只 关注 自身 模块 功能 ， 尽 量 
不 依赖 不 信任 其 他 应 用 ， 即 逻辑 上 实现 松 耦 合 ， 方 便 
各 个 组 件 的 扩展 。 

Kodo 群 集中 主要 组 件 都 可 以 实现 自动 注册 、 自 动 
发 现 、 自 动 协商 的 功能 。 这 样 设计 的 好 处 是 群集 的 可 
扩展 性 极 佳 ， 同 时 容错 更 好 。 各 组 件 自 宣告 状态 可 能 
存在 状态 生效 、 过 期 的 情况 ， 前 文 已 经 提 过 逻辑 松 耦 
合 ， 每 个 服务 不 依赖 其 他 服务 ， 失 败 的 任务 可 以 内 部 
快速 重 试 来 继续 进行 。 比 如 存储 群集 ， 每 新 增 一 组 存 
储 服 务 器 都 是 主动 向 调度 服务 宣告 自己 的 状态 正常 ， 
请 调度 服务 来 进行 数据 读 写 操作 。 某 存储 服务 器 在 宣 
告 自身 为 可 读 写 的 情况 下 意外 下 线 ， 分 配 到 该 组 的 写 
入 请 求 失败 后 会 立即 党 试 其 他 存储 服务 器 。 

七 牛 云 积累 了 多 年 的 存储 设计 运营 经 验 ， 实 现 了 
大 量 的 运营 实施 关键 细节 。 比 如 纠 删 码 的 分 片 大 小 选 
择 ， 七 牛 云 纠 删 码 技术 的 一 个 特点 是 分 块 较 大 ， 默 认 
RAID 级 分 片 是 64KB， 而 Kodo 的 分 片 为 16MB; 当 一 个 
硬盘 故障 时 ， 绝 大 部 分 读 取 请 求 将 可 以 不 触发 数据 修 
复 运算 。 再 如 ，Kodo 大 多 数 服务 属于 无 状态 服务 ， 系 
统 将 所 有 会 话 状态 信息 都 保存 到 后 端 数据 库 ， 客 户 端 
访问 哪个 服务 器 可 以 随机 分 配 ， 这 样 可 扩展 性 会 好 很 
多 ， 失 败 的 链接 简单 重 试 也 能 继续 推进 执行 事务 。 

2018 年 ， 七 牛 云 推出 边缘 计算 与 边缘 存储 技术 ， 
以 提供 容器 部 署 能 力 与 边缘 存储 能 力 来 满足 客户 对 于 


«简洁 ” 


数据 及 用 户 侧 数据 的 存储 、 实 时 分 析 、 低 延迟 响应 等 
需求 。 如 图 11-152 所 示 为 七 牛 云 边缘 计算 & 存 储 & 缓 
存 业 务 架 构 。 

七 牛 云 边缘 存储 服务 提供 基于 七 牛 云 边缘 结 点 
和 客户 侧 边缘 结 点 ， 在 靠近 数据 和 客户 访问 侧 ， 提 供 
最 大 化 链 路 带宽 利用 率 且 高 可 靠 高 可 用 的 存储 服务 ， 
满足 客户 在 大 容量 就 近 存储 、 数 据 安全 与 隐私 保护 等 
方面 的 关键 需求 ， 兼 容 七 牛 云 公有 云 存 储 已 有 服务 和 
接口 ， 与 云端 无 颖 对 接 ， 零 成 本 迁移 扩展 。 七 牛 云 边 
缘 存 储 具 有 如 下 特点 : 多 维 就 近 算 法 选择 最 优 结 点 
保障 边缘 数据 及 时 稳定 上 传 存储 ; 全 局 监控 & 科 学 流 
控 ， 实 时 多 级 备份 保护 ， 通 过 全 局 的 流量 和 访问 监 
控 ， 保 证 合理 利用 闲 时 带宽 提供 额外 数据 安全 保护 ， 
边缘 加 速 最 大 化 利用 可 用 链 路 带宽 ， 平 均 提速 60% 以 
上 ; 本 地 多 媒体 数据 处 理 能 力 ， 就 近 集成 边缘 计算 及 
边缘 缓存 服务 。 

七 牛 云 边缘 计算 服务 基于 七 牛 云 边 缘 结 点 和 客 
户 侧 边缘 结 点 ， 在 靠近 用 户 数据 和 访问 侧 ， 提 供 的 低 
延迟 高 可 靠 高 可 用 就 近 弹 性 计算 服务 ， 满 足 客 户 在 实 
时 业务 ， 应 用 智能 ， 数 据 就 近 处 理 分析 ， 数 据 安 全 和 
隐私 保护 等 方面 的 关键 需求 ， 可 灵活 配置 管理 大 规模 
边缘 计算 应 用 ， 拓 展 边 缘 智能 。 七 牛 云 边 缘 计算 具有 
如 下 特点 : 支持 七 牛 云 边 缘 结 点 ， 结 点 和 客户 边缘 结 
点 部 署 ， 就 近 处 理 私密 数据 ， 网 银 级 数据 通信 加 密 保 
护 ， 提 供 CLI 及 GUI 工 具 ， 提 供 丰 富 的 边缘 计算 API; 
可 用 性 99.8%， 可 靠 性 99.999 999 9%。 

Infortrend 普 安 科技 成 立 于 1993 年 ， 是 比较 老牌 
的 存储 系统 DM 厂商 ， 产 品 贴 牌 给 多 个 知名 厂商 。 
Infortrend 一 直 致 力 于 企业 级 存储 解决 方案 的 研发 与 制 
造 ， 在 存储 系统 领域 也 走 过 了 二 十 多 年 ， 积 累 了 从 产 
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图 11-152 ”七 牛 云 边缘 计算 & 存 储 & 缓 存 业 务 架 构 


品 研发 、 设 计 到 生产 整个 流程 的 丰富 经 验 ， 拥 有 多 项 
领先 专利 。Infortrend 的 产品 线 比较 丰富 ， 可 以 为 中 小 
企业 基础 应 用 、 大 数据 应 用 、 云 计算 与 虚拟 化 等 场景 
提供 对 应 产品 和 方案 。 如 图 11-153 所 示 为 Infortrend 系 
列 产 品 示意 图 以 及 生产 线 照 片 。 

企业 上 云 面临 网 络 带 宽 限制 、 上 云 数 据 安全 问 
题 及 成 本 等 问题 ， 为 此 ，Infortrend 推 出 了 GSc 企业 
级 混合 云 方案 。 如 图 11-154 所 示 Infortrend EonStor 
GSe 是 一 款 云 网 关 存 储 设 备 ， 作 为 企业 级 统一 存储 
系统 ， 支 持 SAN 与 NAS 本 地 存储 服务 及 支持 包括 阿 
里 云 、Amazon 53, Microsoft Azure、OpenStack 等 云 
服务 。EonStor GSc 后 端 支持 RESTful API 接 口 ， 通 过 
EonCloud Gateway 软 件 将 本 地 存储 数据 与 云端 同步 。 
前 端的 SAN 与 NAS 能 够 确保 原来 应 用 的 性 能 与 低 延 
人 迟 ， 企 业 完 全 不 需要 改变 原 有 架构 ， 同 时 也 解决 了 带 
宽 与 转换 成 本 的 问题 。 

在 数据 上 传 云端 前 ，EonCloud Gateway 通 过 重 
删 压 缩 技术 节省 上 传 云端 带 宽 和 容量 。 传 输 过 程 采 
用 SSL 加 密 及 对 云端 数据 的 AES-256 加 密 ， 实 现 数 
据 保 护 。EonCloud Gateway 支 持 多 种 智能 数据 处 理 
技术 。 可 以 针对 不 同 架构 提供 不 同 版 本 。 通 过 卷 级 
(Volume-based) 备份 方案 ， 当 本 地 数据 损坏 时 可 以 
通过 云 网 关 从 云 上 还 原 数 据 。 

文件 级 (Folder-based) 同步 与 卷 级 同步 的 方式 
不 同 ， 其 在 云端 上 是 一 个 个 可 使 用 的 文件 而 非 一 个 备 
份 映像 文件 ， 特 别 适合 大 数据 分 析 应 用 场景 。 基 于 
切片 传输 与 元 数据 (Metadata) 处 理 技术 ，EonCloud 
Gateway 支 持 企业 级 数据 量 ， 可 达到 兆 级 文件 数 。 

EonCloud Gateway 支 持 多 种 云集 成 模式 。 其 中 ， 
云 缓存 模式 是 将 数据 上 传 到 云端 ， 本 地 仅 保留 经 常 访 
问 的 数据 《〈 热 数据 ) 。 另 外 提供 多 达 9 种 高 级 缓存 功 
能 ， 如 “本 地 保留 不 上 传 (Local Only) ”设置 是 指 
特定 附件 名 的 临时 文件 不 上 传 到 云端 ， 以 节省 带宽 。 

EonStor GSc 可 以 扩展 PB 级 的 本 地 空间 ， 让 云 缓 
存 功能 应 对 公有 云 或 私有 云 近 平 无 限 的 数据 量 。 云 组 
存 的 空间 设置 为 预 估 上 云 数据 量 的 10% 一 20% 就 能 够 
最 有 效 地 使 用 数据 。 

除了 完善 保存 海量 的 数据 以 外 ， 企 业 级 架构 相当 
讲究 可 靠 性 与 高 可 用 性 ， 如 图 11-155 所 示 ，EonStor 
GSc 本 身 就 是 一 个 双 控 制 器 的 统一 存储 系统 ， 给 前 端 
SAN 与 NAS 的 应 用 原本 就 提供 元 余 高 可 用 架构 ， 现 
在 通过 RESTful API 连 接 到 云端 的 部 分 同样 支持 高 可 
用 架构 ， 为 混合 云 架构 提供 了 企业 级 的 高 可 用 性 解 
决 方案 

如 果 企业 需要 将 分 公司 的 数据 集中 保存 ， 这 就 非常 
适合 引入 混合 云 的 解决 方案 。 如 各 类 大 型 医院 通常 有 多 
家 分 院 ， 每 天 产生 相当 可 观 的 医疗 数据 量 ， 包 括 医疗 影 
像 等 。 如 何 将 这 些 医疗 影像 进行 集中 管理 并 能 及 时 分 享 
给 各 分 院 是 一 大 难题 ， 虽 然 引 入 了 公有 云 解决 方案 ， 能 
承担 这 个 数据 量 的 网 络 带 宽 费 用 相当 可 观 。 这 时 EonStor 
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GSc 混 合 云 解决 方案 就 能 发 挥 相当 大 的 作用 。 

对 于 每 天 产生 的 高 达 数 十 万 的 医疗 影像 ， 对 于 
统一 存储 来 说 都 可 以 实现 用 户 需 求 的 写 性 能 与 分 享 速 
度 。 但 是 要 在 较 短 的 时 间 窗 口内 将 大 量 数据 集中 上 传 
到 云端 会 出 现 性 能 频 颈 ， 在 云 上 有 超过 PB 等 级 的 数据 
量 ， 让 医院 原 有 系统 像 读 取 本 地 数据 一 样 使 用 云端 的 
数据 ， 是 一 般 的 网 关 服务 器 不 能 承担 的 。 

EonCloud Gateway 的 智能 云 缓存 功能 ， 可 以 让 数 
据 在 非 高 峰 时 段 上 传 到 云端 做 大 数据 分 析 ， 如 图 11-156 
所 示 。 对 于 需要 特定 数据 的 分 院 ， 可 以 预先 下 载 到 云 
缓存 做 进一步 处 理 。 基 于 企业 级 的 高 可 用 性 架构 ， 大 
幅 降低 了 停机 的 风险 ， 使 得 医院 可 以 用 有 限 的 成 本 获 
得 数据 最 高 的 使 用 效率 。 


11.2.8 自主 可 控 系 统 


近年 来 ，IT 系 统 国产 化 这 个 课题 一 直 在 发 酵 。 整 
个 IT 系统 中 的 软 硬 件 种 类 繁多 ， 基 本 可 以 分 为 三 大 类 
别 : 工业 级 ， 企 业 级 ， 消 费 级 。 对 于 消费 级 产品 ， 想 
全 部 从 头 到 脚 国产 化 ， 同 时 又 想 达到 与 现 有 产品 持平 
的 性 能 、 兼 容 性 、 体 验 和 生态 ， 基 本 是 不 可 能 的 。 但 
是 对 于 工业 级 产品 ， 由 于 系统 架构 封闭 ， 利 润 率 高 ， 
更 新 迭代 慢 ， 最 有 希望 实现 全 面 国产 化 ， 但 是 困难 也 
非常 大 ， 主 要 瓶颈 是 一 些 高 精度 器 件 /芯片 的 设计 制造 
等 方面 。 

企业 级 产品 近年 来 也 在 逐步 推进 国产 化 ， 国 产 化 
首先 落地 在 一 些 封闭 系统 内 ， 比 如 一 些 超级 计算 机 中 
采用 的 CPU、 主 板 等 已 经 全 部 实现 国产 化 设计 。 有 些 
存储 系统 也 采用 了 国产 CPU， 但 是 对 于 SAS/SATA 的 
控制 部 分 由 于 国内 空白 ， 所 以 必须 采用 国外 产品 ， 这 
些 系统 也 并 不 能 说 是 100% 国 产 化 。 

自主 CPU 总 要 选择 一 种 指令 集 ， 为 了 兼容 现 有 生 
态 链 ， 一 般 会 选择 生态 成 熟 的 指令 集 。x86 生 态 非常 
成 熟 ， 但 并 不 开放 授权 。MIPS 可 以 开放 授权 ， 但 是 
生态 比较 差 ，MIPS 指 令 集 的 CPU 一 般 用 于 通信 设备 中 
的 主 控 CPU。ARM 指 令 集 也 开放 授权 ， 但 是 ARM 更 
多 是 被 用 到 了 消费 类 产品 中 ， 近 年 来 ARM 也 尝试 在 企 
业 级 耕耘 ， 但 是 至 今 没 有 什么 明显 成 果 。 

使 用 了 某 种 指令 集 ， 并 不 意味 着 就 不 是 国产 化 
了 ， 穿 唐装 还 是 穿 西装 并 不 决定 一 个 人 的 国籍 。 指 令 
集 只 是 CPU 对 外 的 机 器 语言 ， 针 对 每 一 条 指令 的 内 部 
实现 ， 不 同 厂商 可 以 完全 不 同 。CPU 内 部 流水 线 、 组 
存 、 分 支 预测 、 乱 序 执行 等 这 些 优化 是 与 指令 集 无 关 
的 ， 而 体现 出 一 个 CPU 最 终 性 能 的 ， 恰 恰 就 是 这 些 优 
化 设计 。 比 如 AMD 和 Intel 两 家 都 使 用 x86 指 令 集 ， 但 
是 这 两 家 的 产品 性 能 也 是 此 消 彼 长 ， 原 因 就 是 内 部 设 
计 的 差别 。 

但 是 也 的 确 有 直接 采用 国外 厂商 设计 好 的 核心 了 
的 ， 然 后 只 在 外 围 增加 一 些 模块 ， 这 种 应 该 不 算 国产 
化 CPU。 有 些 则 是 购买 了 国外 的 硬件 描述 语言 源码 ， 
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е 性 、 扩 展 性 、 可 维护 性 上 都 低 一 个 量 级 。 但 是 消费 
有 的 可 以 修改 后 使 用 ， 有 的 则 不 能 修改 只 授权 使 用 ， 
这 类 产品 到 底 是 否 算 国产 化 ， 也 不 好 界定 。 类 产品 在 易 用 性 、 创 新 性 、 多 样 性 等 方面 是 企业 级 


产品 无 法 相 比 的 。 另 外 最 重要 的 一 点 是 ， 消 费 类 产 
А А 品 由 于 用 量 很 大 ， 成 本 自然 也 就 相 比 企业 级 产品 低 
113 ”消费 级 相关 计算 机 产品 得 多 。 消 费 类 产品 升级 换代 很 快 ， 市 场 上 品牌 数 不 
胜 数 ， 而 企业 级 产品 轻易 不 升级 ， 对 应 的 厂商 也 都 

消费 类 产品 相 比 企业 类 产品 而 言 在 性 能 、 可 靠 能 数 的 过 来 。 
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11.3.1 智能 手机 


智能 手机 目前 应 该 是 人 手 一 部 了 ， 其 相当 于 一 
集成 了 大 量 外 部 IO 控制 器 的 掌上 计算 机 。 如 图 11-157 
所 示 为 智能 手机 内 部 架构 示意 图 。 除 了 存储 芯片 、 
摄像 头 、 触 摸 膜 、 指 纹 、SIM 卡 、 可 管理 电池 、 按 键 
之 外 ， 还 有 大 量 的 传感器 需要 接 入 ， 比 如 陀螺 仪 、 
加 速 计 、GPS Sensor、 气 压 计 温度 计 、 光 感 流明 计 。 
这 些 设备 其 实 对 于 计算 机 而 言 ， 无 非 都 是 某 种 接口 
的 设备 ， 比 如 I2C 设 备 、SPI 设 备 、UART 设 备 、UFS 
设备 等 。 而 这 些 接口 各 自 对 应 着 一 个 或 者 多 个 IO 控 
制 器 ， 这 些 IO 控 制 器 被 集成 到 主 CPU 或 者 辅助 CPU 
上 。 集 成 了 大 量 外 部 IO 接口 的 CPU 又 可 以 称 为 SoC 
(System on Chip) ， 用 单 片 SoC+ 外 部 设备 即 可 形成 
一 个 完整 的 计算 机 系统 。 

目前 基于 ARM CPU 平台 +Android 操 作 系统 已 经 
成 为 智能 手机 、 移 动 智 能 终端 设备 的 大 众 平台 ， 另 
一 个 主流 平台 则 是 基于 Apple 自 家 CPU+Apple 操 作 系 


Anaya 


统 的 苹果 系 智 能 终端 。 有 多 个 厂商 推出 了 基于 ARM 
核心 的 SoC， 比 如 高 通 、 联 发 科 等 。 智 能 手机 需要 在 
有 限 的 体积 内 融入 一 台 计 算 机 ， 所 以 其 集成 度 非常 
高 。 如 图 11-158 所 示 为 苹果 某 系列 手机 主板 芯片 分 
布 图 。 


11.3.2 ”电视 盒 / 智 能 电视 


实际 上 ， 目 前 多 数 的 移动 智能 设备 的 架构 都 差 不 
多 ，ARM 核 心 的 0C， 再 加 上 一 堆 外 围 设备 。 而 电视 
盒 无 非 就 是 利用 Wi-Fi 把 网 络 上 的 视频 播放 到 HDMI 接 
口 输出 到 电视 上 。 智 能 电视 也 无 非 就 是 个 带 屏幕 的 电 
视 盒 。 而 有 线 电 视 机 顶 盒 则 多 做 了 一 些 ， 加 入 了 有 线 
电视 解码 模块 ， 除 了 可 以 把 IP 网 络 上 的 视频 播放 出 来 
之 外 ， 还 必须 把 有 线 电视 数字 /模拟 信号 变 为 图 像 输出 
到 HDMI 接 口上 。 有 线 电 视 只 不 过 是 另 一 路 视频 输入 
源 而 已 。 如 图 11-159 所 示 为 某 电视 盒 内 部 电路 板 正 反 
面 示意 图 。 
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图 11-157 智能 手机 计算 机 系统 架构 示意 图 
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Apple iPhone 4 - Front 


Skyworks SKY77541 GSM/GRPS Front End Module 

Triquint TQM666092 Power Amp 

Skyworks SKY77452 W-CDMA FEM 

Triquint ТОМ676091 Power Amp 

Apple 33850626 Infineon GSM/W-CDMA Transceiver 

Skyworks SKY77459 Tx-Rx FEM for Quad-Band GSM / GPRS / EDGE 

Apple AGD1 STMicro 3-axis digital gyroscope 

Apple A4 Processor 

Broadcom BCM4329FKUBG 802.11n with Bluetooth 2.1 * EDR and FM receiver 
Broadcom BCM47501UB8 single-chip GPS receiver 


>... 


如 图 11-161 所 示 为 一 个 智能 小 车 玩具 内 部 。 该 小 
мй he 自动 沿 着 标 线 行进 等 功 
摄像 机 内 部 除了 有 主 控 CPU 负 责 响应 界面 操作 、 。 其 采用 两 个 摄像 头 来 检测 障碍 物 以 及 识别 标 线 ， 


全 局 控制 之 外 ， 还 需要 有 专用 的 图 像 处 理 硬 件 加 速 芯 аи 

片 ， 以 及 最 关键 的 能 够 将 外 界 光线 翻译 成 电信 号 的 感 ” 11-162 所 示 为 智能 小 车 玩具 组 件 一 览 。 

光 器 件 ， 如 图 11-160 所 示 。 在 饱 览 了 形形色色 的 计算 机 系统 以 及 周边 生态 角 
色 关 系 全 貌 之 后 ， 冬 瓜 哥 突然 发 现 旁边 还 屹立 着 另 一 
座 雄 峰 ， 那 就 是 机 器 学 习 和 人 工 智能 ， 于 是 冬瓜 哥 忍 
不 住 在 本 书 出 版 审 稿 期 间 迅 速 突击 候 上 这 座高 峰 一 探 

有 些 高 级 一 些 的 玩具 内 部 也 会 有 CPU+ 固 件 , Ж 究竟 。 
常 玩具 里 的 CPU 采 用 51 单 片 机 即 可 满足 多 数 需求 。51 
单片机 最 便宜 的 可 能 一 片 只 有 几 毛 钱 。 
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图 11-161 智能 小 车 玩具 
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1. 连接 上 下 板 的 连接 器 9. LM393 电 压 比较 器 1. 连 接 上 下 板 的 连接 器 6. PC8574 : 增加 1 / O 端 口 数量 的 模块 
2. 超声 波 传感器 的 插座 10. #1:30 , 6V / 600RPM 变 速 箱 的 N20 电机 2. 用 于 安装 屏蔽 arduino 的 连接 器 7. 配置 跳 线 
示 11. 橡胶 轮 直径 42 毫 米 ， 宽 19 毫 米 3. 用 于 连接 Arduino 兼 容 板 的 连接 器 8. TLC1543 : 10 位 AD 转换 器 
12. 电 压 开关 4. Xbee 连 接 器 允许 您 连接 蓝牙 模块 。 9 蜂 鸣 器 
5. 用 于 检测 障碍 物 的 红外 反射 式 传感器 13. 电池 管 : 电池 类 型 14500 ( 不 包括 ) 5. IR 接 收 器 10. 显示 0.96 英 寸 OLED SSD1306,128x645) Е 
6. 用 于 眼 踪 线 路 的 红外 反射 传感器 14. RGB WS28128 二 极 管 11. 操纵 杆 


7. 电位 器 调节 ST188 传 感 器 的 量程 15. 电源 电压 指示 器 
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图 11-162 智能 小 车 玩具 组 件 一 览 
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A 11 章 结尾 大 家 看 到 了 能 够 识别 路 面 上 轨迹 从 而 跟随 移动 的 小 车 ， 
DEL 它 是 怎么 做 到 的 呢 ? 如 果 你 根本 不 关心 也 未 曾 想 它 是 怎么 做 到 
的 ， 那 证 明 这 些 东 西根 本 无 法 触动 你 的 神经 元 ， 也 就 是 你 的 神经 元 已 
经 对 这 些 内 容 失 去 响应 能 力 了 ， 原 因 之 一 可 能 是 你 看 了 太 多 互联 网 上 
的 垃圾 内 容 推送 导致 的 。 

大 学 理科 专业 的 朋友 可 能 有 人 学 习 过 用 坐标 纸 画图 ， 隐 约 记 得 
其 中 有 个 作业 是 ， 给 你 一 些 样 点 值 ， 每 个 样 点 有 x 和 y 两 个 坐标 值 ， 然 
后 在 二 维 垂直 坐标 系 中 画 出 一 条 直线 ， 让 这 条 直线 能 近似 反映 所 有 
样 点 。 记 得 当时 的 做 法 就 是 4 个 字 : 估 摸 着 来 。 全 靠 人 脑 估计 ， 在 坐 
标 纸 上 画 一 道 线 能 够 与 所 有 样 点 都 靠近 ， 然 后 测量 该 线 的 斜率 〈 比 
Шу-ах 5 а) 和 偏 置 值 ( 比 如 >=ax+2 中 的 2) ， 如 图 12-1 左 侧 
所 示 。 

如 果 把 该 直线 关系 看 作 一 个 函数 ， 那 么 其 表达 式 为 Rx)=ax+b，a 和 
5 是 该 函数 的 两 个 参数 ，x 则 是 该 函数 的 变量 ， 上 述 过 程 的 目的 就 是 要 ^ 
找到 这 些 样 点 到 底 在 描述 着 一 种 什么 样 的 关系 ， 看 上 去 像 条 直线 ， 于 т). 


15000 
10000 
5000| 
° 

ол 


是 便 画 一 条 直线 并 测量 其 参数 a 和 b， 这 样 ， 只 要 给 出 一 个 * 值 ， 就 可 以 Е . је 

沿 着 这 条 直线 计算 出 一 个 y 值 ， 对 于 那些 并 没有 采集 到 的 样 点 的 x 值 ， а 

就 可 以 估算 出 它们 的 y 值 。 4%» 9 
如 果 给 出 的 样 点 数量 过 多 ， 比 如 图 12-1 中 间 和 右边 所 示 ， 紧 靠 人 к 

脑 估计 就 很 不 可 靠 了 ， 也 没 谁 能 有 这 个 精力 来 做 这 件 事 ， 除 非 具有 很 pt. s R 


强 的 目的 性 ， 比 如 是 某 股市 走势 图 ， 预 测 下 一 个 点 位 在 哪儿 ， 估 计 不 
少 人 可 能 会 更 有 兴趣 来 手工 计算 。 在 给 出 大 量 样本 时 ， 如 果 想 要 得 到 aaNa 
精确 的 、 让 所 有 样 点 与 该 直线 距离 平均 误差 最 小 的 直线 的 函数 的 参 ~. 2 2 
Ж, НАЯ ИН ИНЕ Т. 
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计算 机 并 没有 神奇 到 能 够 一 眼看 出 结果 ， 它 也 是 需要 算 的 ， 只 
不 过 算 的 比 人 更 快 更 精准 。 对 于 上 述 模型 ， 可 以 这 样 来 设计 计算 机 
程序 ， 首 先 随 机 选取 参数 a 和 5， 假 设 就 是 a=b=0， 也 就 是 形成 函数 
y=f(x)=x， 然 后 用 这 个 函数 将 已 知 样本 中 所 有 样 点 的 x 值 带 入 求 出 y 
值 ， 并 与 各 自 样 点 真实 的 y 值 相 比较 ， 得 到 两 者 之 间 的 差 值 ， 将 每 个 
样 点 的 y 值 的 差 值 求 平方 之 后 相 加 ， 得 到 一 个 总 误差 £1,; 然后 程序 将 a 
和 2 的 值 做 增 大 或 者 减 小 一 个 预先 设 定 的 步 长 值 ， 这 个 步 长 值 通常 为 
当前 的 坡度 或 者 斜率 乘 以 一 个 系数 ， 该 系数 又 被 称 为 学 习 率 ， 意 思 是 
程序 不 断 地 尝试 小 步 挪 动 从 而 学 习 到 当前 是 上 坡 还 是 下 坡 ， 不 断 学 
习 。 这 就 意味 着 如 果 坡 度 比较 陡峭 ， 那 么 步 长 也 会 较 大 ， 因 为 此 时 
更 希望 迈 一 大 步 迅速 降低 误差 。 比 如 让 a=a+ 学 习 率 X 斜 率 ，0=2- 学 
习 率 X1， 然 后 再 把 所 有 样本 代入 重新 计算 出 新 的 总 误差 E,， 看 看 E， 
是 否 小 于 E1， 如 果 总 误差 不 但 没 减 小 反而 增加 了 ， 那 证 明之 前 走 了 上 
坡 路 ， 越 走 误差 就 会 越 大 ， 所 以 需要 在 下 一 轮 迭 代 中 将 a=a-1, 相当 3 3 3 3$ ài 


03 


图 12-1 线性 回归 示意 图 


于 将 ao 从 原始 值 0 降 低 到 -0.5，2 也 做 同样 处 理 ， 然 
后 继续 迭代 ， 如 果 在 新 的 迭代 结束 后 发 现 E 值 降低 
了 ， 那 么 证 明 走 对 了 方向 ， 就 继续 按照 一 定 步 长 
向 与 刚才 迭代 的 同一 个 方向 调整 a 和 b 的 值 ， 一 直 
到 计算 出 的 E 值 不 再 降低 为 止 ， 此 时 得 到 的 参数 a 
和 2， 就 是 对 已 知 样本 最 佳 的 拟 合 函 数 〈 本 例 中 为 
一 条 直线 ) 的 参数 。 

这 个 根据 当前 误差 值 的 变化 趋势 决定 参数 调 
整 方向 、 力 度 从 而 到 达 最 低 误差 目标 的 方法 ， 被 
称 为 梯度 下 降 法 〈Gradient Decent) 。 判 别 学 习 结 
果 误 差 有 多 种 算法 ， 比 如 上 面 例子 中 使 用 的 是 平方 
和 误差 算法 ， 还 有 其 他 误差 计算 方法 ， 比 如 交叉 
Jî (Cross Entropy) ， 这 些 计算 误差 的 算法 函数 被 
称 为 Loss 函 数 〈《 有 人 称 之 为 损失 函数 ) ， 训 练 的 过 
程 就 是 找到 Loss 函 数 最 小 值 的 过 程 ， 也 就 是 达到 用 
最 小 误差 来 拟 合 已 知 样本 。 如 果 用 数学 来 描述 上 述 
梯度 下 降 过 程 ， 其 实 就 是 对 当前 Loss 函 数 的 位 置 求 
斜率 ， 如 果 斜 率 =0 则 证 明 Loss 函 数 达到 了 极 小 值 ， 
也 就 证 明 误 差 到 了 最 低 点 。 用 再 专业 一 些 的 说 法 就 
是 求 Loss 函 数 当前 的 导数 ， 以 冬瓜 哥 的 数学 素养 而 
言 ， 还 是 不 要 说 出 这 些 专业 名 词 了 ， 搞 得 好 像 自己 
很 懂 一 样 ， 其 实 根本 不 慌 。 专 业 的 人 之 所 以 专业 ， 
是 在 关键 时 刻 显示 出 来 的 ， 比 如 我 们 如 果 不 求 导 
数 ， 只 是 看 到 方向 对 了 (本 次 误差 低 于 上 次 误差 
就 继续 走 的 话 ， 每 次 还 是 只 走 一 小 步 ， 然 后 再 回头 
看 一 眼 ， 重 复 刚 才 的 过 程 ， 而 对 于 专业 的 人 ， 也 就 
是 求 一 下 导数 的 人 ， 他 会 感受 到 每 个 点 的 斜率 如 
何 ， 如 果 斜 率 很 大 ， 证 明 当前 坡度 陡峭 ， 那 么 它 可 
以 一 次 迈 一 大 步 〈 增 加 步 长 ) 从 而 更 加 迅速 地 走 到 
谷底 。 

如 图 12-2 左 侧 所 示 为 针对 y=ax+b 这 样 的 直线 函 
数 做 上 述 分 析 时 所 采用 的 误差 平方 和 函数 的 图 像 ， 
图 中 的 横 轴 和 纵 轴 分 别 表 示 y=axr+2 中 的 c 和 0， 而 纵 
轴 值 则 表示 y 值 。 可 以 看 到 ? 值 如 同一 个 碗 状 分 布 ， 
无 论 从 任何 一 点 开始 梯度 下 降 ， 总 能 走 到 最 底部 。 
而 图 中 中 间 的 两 幅 图 所 示 的 针对 其 他 函数 分 析 时 所 
采用 的 Loss 函 数 的 图 像 ， 就 没 那么 幸运 了 ， 可 以 发 
现 其 包含 多 个 谷底 ， 而 我 们 的 目标 是 寻找 全 局 最 低 
谷底 ， 由 于 程序 在 迭代 过 程 中 是 随即 选择 参数 ， 所 
以 可 能 会 导致 梯度 下 降 过 程 中 落 入 某 个 非 全 局 最 低 
谷底 ， 而 此 处 的 斜率 =0， 会 让 程序 误 认 为 找到 了 最 
佳 拟 合 参 数 而 停止 迭代 过 程 。 有 一 些 变种 算法 〈 比 
如 Momentum、Adagrad、Adadelta 等 ) 来 优化 这 类 
问题 ， 降 低 这 类 问题 发 生 的 概率 。 图 中 右 侧 所 示 为 
采用 两 个 不 同 的 学 习 率 以 及 其 他 参数 进行 试 错 寻找 
最 优 参数 的 过 程 的 实际 追踪 ， 可 以 看 到 右 侧 上 面 的 
图 中 一 度 走 入 了 错误 路 径 ， 不 过 最 终 又 返回 了 ， 并 
朝 着 正确 方向 进发 ， 不 过 在 规定 的 迭代 次 数 限 制 内 
并 没有 找到 最 优 参数 ， 右 侧 下 图 所 示 为 一 个 比较 顺 
畅 的 找到 最 优 参数 的 追踪 图 示 。 
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不 同 Loss 函 数 的 图 像 以 及 梯度 下 降 过 程 追 踪 


图 12-2 


有 5 末 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


整个 迭代 过 程 中 运算 量 非 常 大 ， 就 是 傻乎乎 地 
BR RIFE EK, nB 8 8 T 2 T 
一 得 。 这 样 看 来 ， 机 器 好 像 也 聪明 不 到 哪儿 去 ， 也 
是 不 断 地 出 错 重 试 一 直 找到 最 优 的 解 ， 勤 能 补 拙 。 
上 述 这 个 让 计算 机 程序 在 大 量 样本 点 中 持续 运算 分 
析 、 试 错 、 调 整 、 重 新 运算 检验 的 过 程 ， 被 称 为 训 
练 。 训 练 的 目的 是 找到 最 优 的 能 够 描述 或 者 近似 拟 
合 当 前 样本 点 之 间 呈 现 规 律 的 函数 的 参数 。 上 述 整 
个 过 程 被 称 为 机 器 学 习 (Machine Learning) ， 机 器 
学 习 到 了 什么 ? 学 习 到 了 人 为 给 出 的 规律 函数 对 应 


的 参数 。 


上 述 过 程 中 ， 用 于 训练 的 样本 的 输入 值 和 输出 值 
都 是 已 知 的 ， 而 且 预 先 给 出 了 某 个 人 为 确定 的 函数 范 
式 ， 机 器 只 要 找到 该 函数 的 最 优 参数 就 可 以 了 ， 并 且 
程序 代码 会 明确 知道 自己 学 习 的 结果 是 否 正确 ， 还 有 
多 少 偏差 ， 算 错 了 就 调整 参数 重新 算 ， 经 过 有 限 次 数 
的 迭代 总 能 找到 最 佳 拟 合 从 参数 。 线 性 回归 的 函数 是 
人 为 指定 的 ， 也 就 是 一 次 函数 y=ax+5， 人 让 机 器 来 学 


习 总 结 出 的 只 是 该 函数 的 参数 。 


这 么 说 来 ， 单 靠 机 器 自身 是 无 法 发 现 一 堆 样本 
点 之 间 的 规律 的 ， 而 必须 由 人 先 假定 某 个 规律 ， 比 
如 上 述 的 直线 函数 ， 这 样机 器 就 按照 这 个 规律 去 生 
搬 硬 套 然后 找到 最 优 参数 。 如 果 只 是 这 样 ， 那 么 机 
器 学 习 就 没有 那么 大 的 魅力 了 ， 项 多 是 一 种 机 器 计 
算 ， 也 就 是 只 是 替代 了 人 工 烦琐 的 计算 过 程 ， 而 没 
有 替代 人 的 思考 过 程 。 不 过 ， 后 面 还 会 介绍 另 一 种 
机 器 学 习 方式 ， 可 以 让 机 器 经 过 更 大 量 的 运算 最 终 
自行 寻找 出 能 够 以 最 高 精度 拟 合 所 有 样本 点 的 函数 
关系 〈 准 确 地 说 是 以 某 个 预 设 的 万 能 函数 关系 式 通 
过 调整 参数 来 拟 合 任意 函数 ， 就 像 第 1 章 里 利用 传 里 
叶 级 数 实现 任意 波形 拟 合 一 样 ) ， 以 及 该 函数 最 优 
参数 ， 不 得 不 说 这 种 方式 的 确 让 机 器 显得 聪明 了 ， 


下 文 再 介绍 。 


具体 地 ， 上 述 过 程 属于 一 个 线性 回归 (Linear 
Regression) 过 程 。 所 谓 “ 线 性 ”是 指 : 如 果 某 个 
函数 符合 f(x+y)=f(x)+f(y) 的 话 ， 那 么 就 说 该 函数 
是 线性 的 。y=ax 这 类 函数 是 纯粹 线性 的 ， 因 为 
a(x1t+xz)=axjt+ax2， 而 y=ax+b 这 种 函数 虽然 不 符合 上 
述 规则 ， 但 是 也 是 近似 线性 的 。 回 归 指 的 则 是 利用 已 


知 样本 通过 逆向 方法 寻找 出 原 有 规律 的 过 程 。 


有 些 样本 点 体现 出 的 规律 不 是 线性 的 ， 如 图 12-3 
所 示 。 此 时 ， 为 了 找 出 这 些 样本 点 的 函数 关系 ， 需 
要 引入 2 次 或 者 3 次 寡 的 项 来 登 加 到 线性 函数 上 ， 也 
就 是 比如 ?=2+er+De+cxr+Hdxrt+. ， 从 而 引入 更 多 的 
止 凸 部 分 到 函数 曲线 中 。 这 里 面 的 本 质 其 实 与 第 1 章 
中 介绍 过 的 傅 里 叶 变 换 有 殊途同归 之 妙 ， 还 记得 用 


大 量 正 弦 波 是 如 何 琶 加 出 方 波 的 么 ? 


"uu е в ою a 
图 12-3” 非 线性 回归 


确定 了 目标 假定 函数 关系 式 之 后 ， 训 练 的 过 程 与 
之 前 介绍 的 过 程 是 类 似 的 ， 不 再 袭 述 。 如 果 机 器 学 习 
的 结果 的 拟 合 度 不 够 高 ， 此 时 可 能 是 由 于 你 加 入 的 高 
次 暴 项 不 够 多 ， 正 如 波 的 用 加 一 样 。 但 是 如 果 加 入 太 
多 的 高 次 项 ， 可 能 正确 率 会 不 升 反 降 ， 而 且 有 时 还 会 
导致 另 一 个 现象 过度 拟 合 (Overfitting》。 为 此 人 
们 又 想 出 一 些 办 法 来 消除 过 度 拟 合 ， 这 里 就 不 深入 介 
绍 了 。 

此 外 还 有 一 种 多 维 线性 回归 过 程 ， 也 就 是 针对 
表达 式 右 侧 有 多 个 变量 的 函数 的 回归 分 析 过 程 。 假 设 
某 保险 公司 的 数据 库 被 黑客 窃取 并 尝试 分 析 该 保险 公 
司 保费 的 函数 模型 ， 该 黑客 只 能 先 假定 该 保险 公司 使 
用 了 某 个 函数 模型 ， 比 如 是 : =, ХИ, х 
ЕЖУ, X МИНИ, X MW; x НИЛ, ЖЖЖ 
的 左 侧 值 、 右 侧 各 项 变量 的 值 都 是 已 知 的 ， 每 一 组 数 
据 都 被 保存 在 数据 中 ， 将 其 读 出 即 可 。 唯 一 未 知 的 是 
丙 一 本 这 5 个 常量 参数 。 现 在 该 黑客 打算 采用 机 器 学 
习 的 方法 让 机 器 不 断 迭 代 尝 试 出 能 够 拟 合 以 获取 样本 
中 所 有 数据 的 最 优 的 两 一 琴 值 ， 应 该 怎么 做 ? 与 上 述 
做 法 相同 ， 先 随机 选取 一 组 到 ~~W; 值 ， 然 后 代入 数 
据 库 中 所 有 条 目的 性 别 、 年 龄 、 职 业 、 婚 否 、 日 收入 
值 ， 算 出 保费 ， 并 与 该 条 目 真实 的 保费 对 比 ， 算 出 一 个 
差 值 ， 针 对 所 有 条 目 做 同样 运算 ， 最 后 求 得 平方 和 误差 
并 记录 ， 然 后 调整 两 一 静 值 ， 不 断 迭 代 最 终 找到 误差 最 
低 的 两 一 瑟 组 合 。 上 述 过 程 就 是 一 个 多 元 线性 回归 过 
程 ， 因 为 有 多 个 不 同 变量 和 参数 对 结果 产生 登 加 影响 。 

对 于 多 元 函数 f(x,y,2)=bt+wj Xxtw2Xxyt+w3xz， 
wi~ws 值 可 以 被 称 为 该 函数 的 参数 ， 也 可 以 被 称 为 
该 函数 每 一 项 的 权重 ， 也 就 是 每 个 变量 对 函数 结果 
的 影响 度 。 而 函数 右 侧 的 变量 多 数 时 候 并 不 是 孤立 
的 ， 而 是 属于 同一 个 更 高 阶 的 对 象 ， 比 如 上 述 例子 
中 的 性 别 、 年 龄 、 职 业 、 婚 否 、 日 收入 这 5 个 变量 ， 
同属 于 某 位 投保 人 ， 可 以 将 某 个 对 象 在 多 个 维度 上 
的 不 同 变量 当做 一 个 单一 的 向 量 来 看 待 : { 性 别 ， 年 
龄 ， 职 业 ， 婚 否 ， 收 入 }， 也 就 是 每 位 投保 者 都 用 x 
表示 ， 而 该 投保 者 所 拥有 的 多 个 维度 的 变量 就 是 { 
Xy X, xy XY4，Xs}， 而 针对 该 向 量 ， 其 对 应 的 每 个 变量 
的 权重 参数 ， 也 自然 组 成 了 一 个 权重 向 量 : (w, w, 
мз, Ws，ws}， 那 么 上 述 的 fx,y,=) 其 实 可 以 被 表达 为 : 
J()=b+wx, xz 和 w 两 个 向 量 之 间 一 对 一 相 乘 ， 每 一 对 
儿 厂 Xx 被 称 为 一 个 内 积 ， 然 后 再 将 多 个 内 积 相 加 得 出 
一 个 总 和 。 


fm 
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对 于 多 维 函 数 ， 函 数 的 输出 值 如 何 体现 是 个 问题 。 对 于 y=xft3 这 类 有 两 个 变量 (yix) 的 函数 属于 二 维 函 
数 ， 在 二 维 坐 标 系 中 就 可 以 一 目 了 然 地 看 出 它 的 曲线 走势 。 而 对 于 sin(sqrt(Cc+y) 这 种 函数 ， 就 需要 加 一 个 数 
轴 来 表示 其 输出 值 ， 整 个 函数 曲线 变 成 一 个 曲面 ， 如 图 12-4 左 侧 所 示 。 对 于 q=x+2y+3z 这 种 则 属于 四 维 函 数 ， 
三 维 坐 标 系 已 经 无 法 表达 该 函数 的 可 视 化 需求 ， 此 时 需要 再 加 一 个 维度 表示 。 比 如 图 12-4 中 间 和 右边 所 示 ， 
不 得 不 用 颜色 这 个 维度 来 表示 函数 输出 值 ， 而 三 维 坐 标 系 中 表示 的 是 函数 表达 式 右 侧 的 三 个 变量 所 形成 的 曲 
面 ， 曲 面 上 点 的 颜色 对 应 在 颜色 轴 上 的 数值 才 是 函 教 的 输出 值 。 此 时 就 要 注意 了 ， 三 维 坐 标 系 中 的 曲面 最 低 
点 并 不 一 定 表示 函数 输出 值 的 极 小 值 ， 此 时 要 通过 颜色 来 判定 。 如 果 是 五 维 甚至 更 高 维度 的 函数 ， 就 需要 更 


多 维度 坐标 轴 来 表示 。 
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图 12-4 多 维 函 数 的 可 视 化 表示 方法 


如 果 该 保险 公司 使 用 模型 fx)=b+wx 来 计算 每 个 
客户 的 价值 ， 那 么 Kx) 的 值 越 高 就 证 明 该 客户 价值 越 
高 。 那 么 ， 这 些 歼 权重 值 是 如 何 得 到 的 ? 保险 公司 难 
道 天 生 就 知道 男人 或 者 女人 就 更 爱 买 保险 么 ? 他 们 当 
然 是 不 知道 的 ， 所 以 ， 他 们 需要 将 已 有 的 买 过 保险 的 
所 有 客户 的 数据 作为 已 知 样本 ， 将 客户 购买 的 保 额 或 
者 忠诚 度 等 最 终 价值 点 作为 输出 ， 将 客户 的 x 属性 向 
量 作为 输入 ， 通 过 与 之 前 所 述 同样 的 方式 求 出 向 量 刺 
的 最 优 值 ， 便 得 出 了 x) 表达 式 的 最 优 下 权重 向 量 。 此 
时 如 果 发 现 表示 性 别 权重 的 瑟 的 值 远 低 于 其 他 厂 值 ， 
则 表明 性 别 的 不 同 对 最 终 保 额 没 有 多 少 影响 ， 是 这 样 
ЮА? 显然 不 是 ， 应 该 是 下 ,X 性别 的 值 ， 也 就 是 这 
项 内 积 的 值 如 果 远 低 于 其 他 内 积 项 的 值 ， 才 能 说 明 该 
项 对 结果 的 贡献 度 最 小 ， 而 很 有 可 能 年 龄 、 职 业 、 婚 
和 否 、 收 入 等 内 积 项 的 影响 更 大 。 当 然 也 有 可 能 会 发 现 
比较 难以 理解 的 结果 ， 则 说 明 其 背后 一 定 隐 藏 着 深层 
次 的 事物 规律 。 

我 们 假设 ， 真 实 的 保费 模型 是 : 保费 =0+1X 性 别 
+ 10X 年 龄 +6X 职 业 +3X 婚 和 否 +15X НИЛ, НЯ 
取 了 该 保险 公司 数据 的 黑客 并 不 知道 该 模型 的 参数 ， 
但 是 他 从 某 些 其 他 渠道 获知 了 该 模型 的 函数 范式 ， 也 
就 是 一 个 多 维 线性 函数 。 同 时 ， 假 定 用 2 位 编码 表示 
性 别 ， 比 如 int 0 表示 女 ，int 1 表示 男 ， 用 int 整 数 表 示 
年 龄 值 ， 用 4bit 编 码 表示 16 种 职业 ， 用 2 位 表示 婚 否 ， 
用 int 整 数 表示 日 收入 值 。 对 于 某 个 样本 x={0，36， 


0100，1，100}， 其 保费 =1887 元 。 显 然 ， 日 收入 在 整 
个 保费 中 起 到 了 决定 性 作用 。 当 然 这 个 模型 纯粹 是 瞎 
猜 ， 如 果 某 商业 保险 公司 是 按照 谁 赚钱 多 谁 缴 的 保费 
就 多 计算 的 话 ， 那 不 太 科 学 。 


12.2 逻辑 分 类 : 不 是 什么 都 能 一 
ЛИЛ 


除了 上 述 的 线性 和 非 线 性 归 回 分 析 之 外 ， 还 有 
一 类 应 用 场景 很 广泛 的 数据 处 理 方式 ， 叫 作 分 类 。 假 
设 有 一 堆 样 本 点 (xs , у), ШАЛ ЛО СЕ, 
НН) 数据 ， 已 知 其 中 五 千 人 的 职业 ， 共 分 成 两 类 职 
业 : 脑力 劳动 和 体力 劳动 。 现 在 想 分 析 一 下 年 龄 + 血 
糖 值 这 对 组 合 与 职业 之 间 是 否 具有 某 种 潜在 联系 ， 需 
要 用 这 五 千 人 的 已 知 样本 点 ， 找 到 一 个 关系 模型 ， 用 
它 来 猜测 那些 职业 未 知 的 样本 点 的 职业 。 或 者 反 过 
来 ， 已 知 某 人 职业 ， 预 测 其 血糖 值 区 间 。 

假设 真 的 存在 某 种 固定 关系 模型 ， 年 龄 越 高 的 
人 血糖 值 越 高 ， 而 且 多 数 为 脑力 劳动 者 ， 年 龄 越 低 
的 人 血糖 值 越 低 ， 多 数 为 体力 劳动 者 。 如 果 是 这 样 
的 规律 ， 那 么 样本 点 在 xz" 坐标 轴 上 的 分 布 应 该 是 如 图 
12-5 所 示 的 那样 ， 显 然 ， 使 用 一 根 直线 切 一 刀 ， 落 在 
直线 上 方 的 就 是 脑力 劳动 者 ， 落 在 下 方 的 就 是 体力 劳 
动 者 。 
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y linear 


图 12-5 ”线性 分 类 


那么 如 何 让 程序 来 分 析出 这 两 大 类 职业 ? 首先 ， 
计算 机 程序 是 根本 不 知道 还 存在 两 大 类 职业 的 ， 它 只 
能 看 到 一 堆 年 龄 + 血糖 值 数据 ， 其次， 计算 机 程序 也 
并 不 知道 如 何 分 类 。 所 以 ， 需 要 人 来 告诉 计算 机 ， 本 
模型 是 可 以 一 刀 切 的 ， 你 只 需要 穷 举 迭 代 找 到 一 条 合 
适 的 直线 就 可 以 。 这 最 终 就 成 了 前 文 所 述 的 线性 回归 
的 计算 过 程 了 ， 随 机 初始 化 y=wx+5 中 的 w 和 2b 的 值 ， 然 
后 将 所 有 样本 点 代入 该 函数 并 判断 该 样本 点 位 于 直线 
的 哪 一 侧 ( 如 果 y-wx>B 则 位 于 直线 右上 侧 ，y-wx<5 则 
位 于 直线 左下 侧 ) ， 然 后 看 看 标准 答案 以 判断 分 类 是 
否 正确 ， 统 计 出 总 体 的 答对 率 ， 如 果 达 不 到 要 求 ， 则 
调整 参数 继续 迭代 ， 最 终 程序 可 以 找 出 图 12-5 中 所 示 
的 直线 的 更 和 5b 参 数 。 可 以 看 到 该 模型 并 非 用 误差 平方 
和 来 判定 错误 率 ， 而 是 用 分 类 是 否 正 确 来 判断 。 

然而 ， 实 际 的 场景 并 非 都 是 这 么 简单 的 。 如 图 
12-6 所 示 ， 假 设 已 知 样本 点 中 真实 的 关系 是 : 年龄 在 
30 一 50 岁 的 人 、 血 糖 高 于 某 值 的 人 属于 体力 劳动 者 的 
话 ， 那 么 就 会 看 到 ， 用 上 述 的 y=wx+5 这 个 模型 来 训 
练 的 话 ， 最 终 的 错误 率 会 很 高 ， 可 能 会 到 30%， 再 也 
降 不 下 去 了 ， 那 就 证 明 y=wx+b 这 个 模型 无 法 高 精度 
拟 合 真实 的 事物 关系 。 


12-6 线性 分 类 


显然 ， 可 以 画 两 根 直 线 将 蓝 色 样 点 切 出 来 ， 同 时 
落 在 绿色 直线 上 方 和 红色 直线 左 侧 的 样 点 就 是 体力 劳 
动 者 。 可 以 看 到 ， 如 果 能 够 有 某 种 办 法 将 两 个 结果 做 
AND 操 作 ， 都 符合 条 件 才 加 以 判定 ， 那 就 似乎 可 以 解 


决 这 个 问题 。 

假设 先 没有 机 器 什么 事 ， 我 们 先 把 上 帝 视角 模式 
打开 ， 纯 手工 演绎 一 下 。 图 12-6 中 红色 和 绿色 这 两 条 
直线 函数 关系 式 分 别 为 。 5x-y-7=0 和 x+4y-4=0。 假 
设 有 某 个 样 点 (2, 2)， 将 其 代入 红色 直线 表达 式 得 出 结 
果 为 1， 大 于 0， 所 以 它 位 于 红线 右 侧 ， 判 定 为 脑力 劳 
Zi: 同 理 ， 代 入 绿色 线 结果 为 6， 大 于 0， 所 以 其 位 
于 绿色 线 上 方 ， 判 定 为 脑力 劳动 者 。 于 是 我 们 就 定 个 
规则 ， 凡 是 代入 函数 求 出 的 结果 >0 的 都 表示 脑力 劳动 
者 ，<0 的 则 表示 体力 劳动 者 。 而 且 结 果 值 越 远 离 0， 
证 明 对 应 函数 认为 该 点 是 或 者 不 是 脑力 劳动 者 的 可 能 
性 越 高 。 

很 显然 ， 对 于 图 中 a、5b 区 的 所 有 样 点， 绿色 直线 
都 误 判 了 。 而 对 于 a 区 的 所 有 样 点 ， 红 色 直 线 都 误 判 
了 。 对 于 绿色 直线 ，o、2 区 的 误 判 数量 庞大 ， 那 干脆 
这 样 ， 把 绿色 函数 变换 一 下 : -x-4y+4=0， 这 样 把 结 
果 刚 好 翻转 了 过 来 ， 评 判 标准 不 变 ， 凡 是 代入 算出 结 
果 >0 的 判定 为 脑力 劳动 者 。 现 在 变 成 了 : 绿色 函数 会 
误 判 c 区 ， 红 色 函 数 会 误 判 a 区 。 

将 上 述 场景 总 结 在 图 12-7 左 侧 ， 同 时 右 侧 给 出 了 
另外 一 个 更 复杂 的 分 类 场景 。 对 于 左 侧 场景 ， 很 显 
然 ， 这 两 个 函数 的 结果 ， 与 样 点 真实 分 类 之 间 形 成 了 
% CORO 的 关系 。 所 以 ， 给 出 任何 一 个 样 点 ， 将 其 
代入 这 两 个 函数 计算 ， 只 要 有 任何 一 个 函数 的 输出 结 
果 >0， 就 证 明 该 样 点 一 定 表 示 脑 力 劳动 者 。 

而 对 于 图 12-7 右 侧 的 场景 ， 牵 扯 到 了 更 复杂 的 
场景 组 合 ， 那 么 如 何 实现 这 种 组 合 ? 还 记得 第 1 章 
中 介绍 过 的 由 真 值 表 写 出 表达 式 的 方法 么 ? 我 们 直 
接 套用 之 后 ， 就 形成 了 如 图 12-8 右 侧 所 示 的 逻辑 表 
达 图 。 

提示 > 

如 第 1 章 所 述 ， 用 真 值 表 写 出 的 逻辑 电路 是 没 

有 经 过 简化 的 。 观 察 图 12-7 右 侧 可 以 看 出 ，4 条 直线 
划分 的 区 域 相 与 ， 其 实 就 是 所 有 “+” 样 点 所 在 的 
区 域 。 图 12-8 中 的 流程 其 实 可 以 化 简 ， 这 个 问题 就 
留 给 读者 们 自行 推演 了 。 还 有 一 些 更 复杂 的 分 类 关 
系 ， 比 如 XOR、XNOR 等 ， 这 些 关系 其 实 都 可 以 用 
AND、NOT、OR 这 三 种 关系 搭配 出 来 。 还 记得 第 9 
章 中 介绍 过 的 PLD 器 件 么 ? 其 采用 与 阵列 和 或 阵列 
先后 作用 ， 可 形成 任意 逻辑。 


回 过 头 来 看 ， 我 们 开 了 上 帝 视角 ， 已 经 提前 知 
道 了 要 用 几 条 直线 来 划分 样本 ， 并 且 直 接生 搬 硬 套 了 
一 个 答案 出 来 。 但 是 ， 如 何 让 机 器 自己 来 通过 不 断 迭 
代 穷 举 试 错 最 终 发 现 需 要 多 少 条 直线 ， 每 条 直线 的 斜 
率 、 正 负 符 号 和 偏 置 值 ， 需 要 多 少 个 与 、 或 、 非 操 
作 ， 谁 和 谁 相 与 相 或 相 非 ? 这 就 需要 设 定 一 个 Loss 函 
数 ， 然 后 扔 给 机 器 让 它 千 思 万 虑 ， 最 终 可 能 机 器 真 的 
就 发 现 了 上 述 参数 ， 或 者 近似 参数 。 
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图 12-7 ”两 个 分 类 场景 下 的 结果 总 结 
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图 12-8 ”对 应 图 12-7 中 场景 的 逻辑 表达 图 


除了 把 事情 表达 成 与 或 非 的 关系 之 外 ， 还 可 以 从 
另外 的 角度 和 方法 来 入 手 ， 从 而 可 以 实现 更 多 效果 和 
结论 。 

如 图 12-9 所 示 ， 还 是 刚才 的 场景 ，c 区 被 绿色 函 
数 误 判 ， 但 是 对 于 蓝 色 函 数 ，c 区 的 判定 全 部 正确 ， 
如 果 以 某 个 样 点 距离 函数 直线 的 绝对 距离 值 作为 该 样 
点 的 分 类 可 能 性 的 话 ， 那 么 越 远离 直线 越 可 能 正确 或 
不 正确 。 对 于 c 区 中 的 蓝 色 样 点 ， 蓝 色 函 数 说 该 样 点 
是 脑力 劳动 者 ， 可 能 性 假设 为 1， 但 是 绿色 函数 说 该 
样 点 是 脑力 劳动 者 的 可 能 性 为 -5。 到 底 该 听 谁 的 ? 
如 果 两 者 都 得 听 的 话 ， 那 就 将 两 者 输出 的 可 能 性 值 相 
加 : 1+(-5)=-4， 结 果 显 示 该 点 不 是 脑力 劳动 者 。 但 
是 开启 上 帝 视角 之 后 可 以 看 到 蓝 色 样 点 的 确 为 脑力 劳 
动 者 ， 应 该 听 蓝 色 函 数 的 ， 但 是 无 奈 蓝 色 函 数 判定 该 
样 点 是 脑力 劳动 者 的 可 能 性 低 得 可 怜 ， 只 有 1， 压 不 


过 -5， 那 怎么 办 ? 

好 办 ， 我 们 给 蓝 色 函 数 一 个 较 高 的 权重 ， 也 就 
是 直接 将 它 乘 以 10， 再 与 绿色 函数 相 加 ， 如 图 12-9 
中 间 所 示 。 这 下 好 ，10+(-5)=5， 脑 力 劳动 者 ! 让 
Жы! 蓝 色 函数 有 了 特权 ， 就 可 以 在 c 区 无 视 一 
切 其 他 可 能 性 值 的 贡献 度 。 对 于 橙色 样 点 ， 其 本 来 
的 可 能 性 就 已 经 很 高 了 ， 已 经 压 过 绿色 的 反对 声音 
了 ， 被 放大 10 倍 之 后 ， 就 更 高 了 。 但 是 回 过 头 来 
看 看 4 区 ， 蓝 色 曲 线 本 来 就 完全 误 判 了 a 区 中 所 有 
样 点 ， 认 为 其 为 脑力 劳动 者 的 可 能 性 都 <0， 现 在 
被 放大 了 10 倍 ， 相 当 于 把 错误 也 放大 了 10 倍 ， 而 
绿色 函数 的 正确 声音 在 a 区 被 完全 压制 了 ，a 区 彻 
底 沦陷 ! 

那 好 ， 既 然 蓝 色 函 数 不 给 力 ， 把 绿色 函数 放大 10 
倍 看 看 ， 同 样 的 事情 发 生 了 ，a 区 收复 失地 ， 但 是 c 区 


下 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


沦陷 了 ， 全 部 误 判 ! 可 以 看 到 ， 无 论 给 哪 条 直线 增加 
权重 ， 在 收复 一 些 正确 率 的 同时 ， 又 会 损失 其 他 区 域 
的 正确 率 ， 顾 此 失 彼 ! 这 一 切 的 本 质 原因 ， 你 可 能 已 
经 能 够 隐约 体会 到 了 ， 直 线 ， 也 就 是 线性 函数 ， 它 真 
的 过 于 直 了 ， 如 果 能 届 能 伸 ， 是 否 可 能 更 好 。 我 们 自 
然 在 想 一 件 事情 : 能 否 把 蓝 色 直线 在 a 区 的 影响 力 以 
及 绿色 直线 在 c 区 的 影响 力 去 掉 ， 而 只 保留 它们 对 自 
己 判定 正确 区 域 的 影响 力 ? 


12.3 HARM: 竟 可 万 能 拟 合 


对 于 图 12-10 中 左 侧 所 示 的 场景 ， 以 x=3 这 个 点 为 
分 界 ， 我 们 期 望 的 是 当 *>3 时 ， 函 数 能 够 按照 蓝 色 曲 
线 来 走 ， 而 当 x<3 时 则 按照 绿色 曲线 来 走 ， 那 最 终 就 
有 最 高 的 分 类 正确 率 。 

仔细 想 想 ， 如 果 能 有 某 种 办 法 ， 让 绿色 曲线 在 
z3 时 总 输出 0， 而 让 蓝 色 曲 线 在 x<3 时 总 输出 0， 然 后 
把 这 两 个 函数 相 加 ， 绿 色 函 数 的 保留 区 段 与 蓝 色 函 数 
的 丢弃 区 段 ( 也 就 是 9) 相 加 等 于 不 加 ， 还 是 绿色 函 
数 ， 蓝 色 函 数 也 一 样 。 这 样 两 边 的 粮 粕 就 被 丢掉 了 ， 
只 剩 下 想 保留 的 区 段 。 先 写 出 这 个 合并 后 函数 的 表 

370.251) f (0) (5x-7)/56) 

其 中 ,A 是 某 个 奇妙 的 函数 ， 该 函数 能 够 实现 


y -x-4y+4=0 


5x-y-7=0 


y 10*(5х-у-7) + 1*(-х-4у+4) > 07 


在 想 要 的 分 界线 时 上 ， 比 如 上 文中 的 x*=3 时 ， 当 大 于 
该 分 界线 时 就 输出 0 或 者 1 (看 你 想 要 的 是 什么 ) ， 小 
于 该 分 界线 时 输出 1 或 者 0 〈 看 你 想 要 的 是 什么 ) 。 假 
设 真 的 存在 这 种 神奇 函数 ， 那 么 只 要 设计 让 HG9 在 之 3 
时 输出 0，x<3 时 输出 1; 让 /Co 在 z>3 时 输出 1，x<3 时 
输出 0， 愿 望 就 达成 了 ! 经 过 前 贤 的 探索 ， 找 到 一 个 
合适 的 函数 可 以 做 这 件 事 ， 如 图 12-10 中 间 所 示 的 函 
数 ， 其 名 为 Sigmoid 函 数 〈S 形 函数 ) 。 该 函数 会 对 输 
入 值 做 运算 ， 当 输入 值 越 大 时 ， 其 输出 值 越 趋 近 于 
1， 输 入 值 越 小 ， 则 其 输出 值 越 趋 近 于 0。 图 中 右 侧 所 
示 为 该 函数 的 示意 符号 。 

利用 该 函数 如 何 实 现 上 述 自 定义 需求 ? 请 看 
图 12-11， 如 果 把 Sigmoid 函 数 的 输入 值 本 身 作 为 另 
一 个 函数 的 输入 值 ， 那 么 就 可 以 精细 地 调控 在 什么 
分 界线 、 输 出 1 还 是 09 了。 比如 图 12-11 左 上 角 ， 当 
把 -100x+300 (一 个 直线 函数 ) 的 输出 值 作为 Sigmoid 
函数 输入 值 时 ， 当 x<3 时 ，-100x+300>0，x 越 小 ， 输 
出 值 越 接近 1，x 小 到 2.95 时 ，Sigmoid 输 入 值 为 5， 此 
时 Sigmoid 函 数 输出 值 近似 为 1。 当 然 ， 如 果 想 要 让 x 
只 比 3 小 一 点 点 儿 ， 比 如 x=2.995 时 ，Sigmoid 就 饱和 输 
出 近似 1 的 话 ， 那 么 可 以 将 参数 调整 为 -1000x+3000， 
或 者 更 高 。 图 12-11 下 方 展 示 了 更 多 参数 下 的 Sigmoid 
函数 曲线 ， 可 以 体会 一 下 。 图 12-12 将 直线 及 其 被 
Sigmoid 函 数 处 理 之 后 的 曲线 在 一 起 显示 ， 可 以 对 比 
== 


У 1*(5х-у-7) + 10*(-х-4у+4) > 0? 


5x-y-7-0 


В 
1+ exp(-x) 


-02 


-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 


12-10 有 没有 这 种 神 操作 能 劈 开 两 个 函数 将 期 望 的 线段 合并 起 来 ? 


fi(x) 
os | № 1/1+е^-(-100*х+300)) m 


ШЕ 1/(1+е^-(-1000*х+3000)) 
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(х) 


ФЕ 1/(1 +e^-(100*x-300)) 


№ 1/(1+е^-(3*х-7)) 

WÎ 1/(1+e^-(8*x-7)) 

№ 1/(1 +e^-(80°x-7)) 
ш 1/(1+e^-(80"x-90) 
Wm 1/(1+e^-(80*x-150) 
Wm 1/(1+e^-(-80*x-20) 
Wm 1/(1+е^-(-80*х-50)) 
№ 1/(1 +e^-(-20*x-50)) 


m 1/(1+е^-(-3*х-7)) 
1/(1+e^-(-5*x-7)) 
ш 1/(1 +e^-(0.8*x-7)) 
ш 1/(1+е^-(5*х-7)) 
m 1/(1+е^-(25*х-7)) 
Шш 1/(1+е^-(125*х-7)) 
Шші1/(1%е7-(591) 
ш 1/(1+е^-(5°х+1)) 
ш 1/(1+е^-(5*х-20)) 
ЕС 
[ва] -5*x-7 

087 
m 55-7 
ш 25*-7 
ш 125-7 
m 5-1 
m 5+1 
m 5-20 


-2 
2 
-4 
-5 
2 0 2 
图 12-12 


大 功 告 成 ! 将 函数 合并 为 : y=(-0.25x+1) S(-100x+ 
300)+(5x-7) S(100x-300)， 该 函数 就 是 能 够 精确 分 类 
前 文中 已 知 样本 的 分 类 函数 ， 当 然 ， 别 忘 了 我 们 现 
在 处 于 上 帝 视角 ， 如 果 切 换 回 用 户 视角 将 会 是 什么 
样 呢 ? 

(Wirth) SOVoctb;) И) 5(Й/ус+Ь,) 

此 时 你 应 该 知道 了 ， 只 把 上 面 这 个 公式 模型 告 
诉 计算 机 程序 ， 至 于 WW1~4 以 及 bp1~54 具 体 值 是 多 
少 ， 得 靠 程序 穷 举 迭代 出 来 ， 也 就 是 让 机 器 学 习 出 
来 ， 后 续 的 过 程 前 文中 已 经 介绍 过 了 ， 不 再 更 述 。 


4 6 8 10 


直线 及 其 被 Sigmoid 函 数 处 理 之 后 的 曲线 在 一 起 显示 


如 图 12-13 所 示 为 更 复杂 的 曲线 对 应 的 表达 式 。 可 
以 预见 的 是 ， 利 用 这 种 方式 ， 其 实 可 以 拼接 出 任意 
曲线 来 ， 就 像 用 一 根 根 小 线段 拼接 出 连续 的 大 线 
段 来 。 

如 果 将 上 述 函数 写成 流程 图 的 话 ， 就 会 如 图 
12-14 所 示 。 如 果 仔 细 体 会 这 种 拟 合 任意 曲线 的 方 
法 ， 是 不 是 与 图 12-8 中 所 示 的 以 及 第 1 章 介 绍 的 用 真 
值 表 写 逻 辑 表达 式 的 过 程 〈 先 相 与 ， 然 后 相 或 ) ， 竟 
然 惊人 的 类 似 呢 ? 其 实 还 有 一 处 与 该 方法 更 神似 ， 那 
就 是 图 1-70 所 示 的 用 小 波形 拼接 出 大 波形 来 ， 其 实 这 
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LX .. к 


y=(Wix+b1) S(Wax+b2) + (Wsx+bs) S(Wax+ba) +(Wsx+b:) S(Wex+be) +(W;x+b;) S(Wsx+bs) +(Wsx+bs) S(Wiox+b10) +(W;ix+b,;:) S(Wizx+b12) 
图 12-13 更 复杂 的 分 类 曲线 


种 拼接 拟 合 波形 的 方法 与 小 波 分 析 的 本 质 思路 类 似 。 
其 与 传 里 叶 级 数 用 基 波 和 高 次 谐 波 又 加 出 任意 波形 也 
颇 有 相似 之 处 ， 但 是 看 上 去 傅 里 叶 级 数 方式 并 不 是 拼 
接 ， 而 是 县 加 。 不 过 由 于 上 述 用 于 拼接 的 曲线 段 在 小 
于 或 者 大 于 某 个 值 时 纵 轴 坐 标 会 趋 近 于 0， 所 以 看 上 
去 像 是 拼接 ， 其 实 本 质 上 还 是 亚 加 ， 因 为 与 0 相 加 等 
于 没有 任何 变化 ， 看 上 去 就 像 拼接 起 来 一 样 。 


y=(Wix+b1) S(Wax+b2)+ (Wsx+ bs) SIWoc+b2) + (W.x +b.) S(Wex+be) 
+(W;x+b;) S(Wax+ba) +(Wgx+ bg) S(Wiox+b10) +(W,,x+b,,) S(Wiax+b12) 


12-14 将 函数 表达 式 制 成 流程 图 


数学 上 有 一 类 叫 作 泰 勤 展 开 式 的 方法 ， 如 果 仔 细 
研究 一 下 会 发 现 这 些 方法 和 技术 的 本 质 都 类 似 。 有 兴 
趣 的 读者 甚至 可 以 去 研究 一 下 分 形 理论 ， 向 追求 事物 
更 底层 的 微观 本 质 进军 ， 分 形 的 思想 在 第 1 章 中 也 有 


些许 思考 和 介绍 。 扫 描 图 12-15 中 的 二 维 码 观 看 如 何 
利用 傅 里 叶 级 数 的 思想 拟 合 出 任意 曲线 。 

仔细 端详 图 12-11 会 发 现 ，Sigmoid 函 数 的 作用 其 
实 就 是 将 一 根 直线 竹 弯 ， 折 弯 处 在 直线 上 的 水 平 总 体 
位 置 、 方 向 以 及 曲率 都 是 可 以 调整 的 ， 只 需要 改变 1/ 
(1l+e^-(Wx+b)) 中 的 更 和 4b 的 数值 和 正 负 号 就 可 以 了 。 
这 似乎 预示 着 我 们 可 以 用 这 些 近乎 无 限 的 小 零件 去 硬 
生生 地 拼接 出 任意 函数 曲线 来 ， 就 像 七 巧 板 和 乐高 玩 
具 一 样 。 

如 图 12-15 所 示 ， 先 开启 上 帝 视角 ， 直 接 按照 曲线 
上 各 段 的 形状 ， 构 造 出 对 应 的 近似 线段 来 。 值 得 一 提 
的 是 ，Sigmoid 函 数 处 理 之 后 的 直线 样子 比较 统一 ， 就 
是 纵 轴 值 在 0 和 1 之 间 ， 中 间 某 处 被 折 弯 ， 折 弯 处 左右 
分 别 趋 近 0 和 1。 而 我 们 构造 出 来 的 线段 ， 左 边 都 趋 近 
于 0， 但 是 其 他 地 方 就 不 一 定 了 ， 比 如 如 果 对 处 理 后 的 
曲线 乘 以 某 个 系数 环 ， 比 如 1/(l+e^(F2x+b))， 则 曲 
线 会 在 纵 轴 方 向 被 拉 伸 或 者 压缩 。 有 时 候 使 用 乘法 来 
拉 伸 和 压缩 可 能 达 不 到 精确 的 变形 ， 此 时 就 不 得 不 使 
用 多 个 更 细小 的 零件 琶 加 《〈 加 法 ) 起 来 ， 可 以 采用 两 
条 或 者 更 多 条 折 弯 后 的 曲线 受 加 成 形状 更 符合 期 望 的 
曲线 。 比 如 图 12-15 中 的 黑 灰 色 的 线段 就 被 用 于 县 加 成 
我 们 想 要 的 高 级 零件 (图 中 红 、 检 、 绿 色 线 段 )。 有 
时 候 受 加 后 还 得 乘 以 -1 将 线段 在 纵 轴 方 向 镜像 一 下 才 
能 满足 需求 (如 图 中 红 、 绿 色 线 段 〉。 

我 们 先 假设 该 曲线 从 原点 开始 ， 构 造 出 其 整 条 曲 
线 之 后 ， 再 加 上 1 将 整个 曲线 上 移 1 个 单位 即 可 。 如 图 
12-16 一 图 12-20 为 整个 拼接 过 程 ， 高 中 解析 几何 及 格 
的 同学 们 看 懂 这 些 图 应 该 没有 什么 压力 ， 不 及 格 的 也 
可 以 尝试 一 下 。 


乘 -2 或 许 也 可 以 


乘 2 或 许 也 可 以 


图 12-15 ”构造 用 于 拟 合 该 曲线 的 小 线段 
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图 12-16 一 步 步 地 拼接 小 线段 (1) 
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图 12-17 一 步 步 地 拼接 小 线段 (2) 
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图 12-20 ”给 拼接 好 的 曲线 加 上 偏 移 量 (bias〉 整 体 上 下 移动 


用 Sigmoid 这 个 直线 折 弯 器 ， 怎 么 拟 合 出 一 条 真 直线 来 ? 如 果 要 拟 合 竖 直 方向 的 直线 ， 那 么 可 以 将 某 个 直 
线 的 某 个 部 位 折 弯 成 近似 90 就 可 以 了 ， 如 图 12-11 中 的 1/(1+e^(-1000 xx+3000)) 函 数 曲线 所 示 ， 当 然 ， 不 加 系 
数 的 Sigmoid 函 数 最 大 输出 值 趋 近 于 1， 如 果 要 表示 的 数值 方向 曲线 的 纵 轴 值 超过 1， 那 可 以 给 Sigmoid 函 数 乘 
以 一 个 系数 放大 nn 倍 即 可 ; 如 果 是 水 平 直线 ， 那 么 Sigmoid 的 输出 在 趋 近 于 1 或 者 0 时 本 身 就 已 经 是 直线 了 ， 只 
要 将 折 弯 的 位 置 远离 当 前 坐标 位 置 即 可 。 
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还 有 个 问题 你 可 能 已 经 很 迷惑 了 ， 连 初中 生 都 知道 用 直线 段 就 可 以 模拟 出 任意 曲线 啊 ! 用 积分 来 求 曲线 
区 域 的 面积 不 就 是 这 个 原理 么 ? 为 何不 能 直接 用 数量 较 多 的 不 同 角度 、 长 度 、 纵 轴 偏 移 量 (bias) 的 直线 线 
段 拼接 出 任意 曲线 ， 而 非 要 用 经 过 Sigmoid 函 数 处 理 之 后 的 折 索 线 ? 问题 就 在 于 ， 折 弯 线 的 两 边 都 是 平 的 ， 左 
侧 必须 是 趋 近 于 0， 因 为 这 样 才 能 保证 与 0 相 加 等 于 什么 都 没 加 的 效果 ， 具 体 可 以 体会 图 12-21， 左 侧 你 想象 中 
的 方案 ， 中 间 是 按照 想象 实施 之 后 的 方案 ， 右 侧 才 是 有 效 方案 。 你 会 看 到 ， 多 条 直线 无 论 怎么 琶 加 ， 最 终结 
果 还 是 直 的 ， 弯 不了， 因为 直线 是 无 限 延伸 的 ， 无 法 的 掉 头 尾 只 留 一 段 ， 必 须 利用 非 线 性 函数 进行 处 理 才 可 


以 引入 过 的 成 分 。 


-一 下 


你 想象 中 的 方案 实际 上 却 是 这 样 


> > 


正确 的 方法 是 这 样 


图 12-21 用 直线 解析 式 是 无 法 有 加 出 曲线 的 


将 上 述 过 程 用 运算 流程 图 表达 出 来 ， 如 图 12-22 
左 侧 所 示 。 将 任何 一 个 给 出 的 样 点 的 x 值 带 入 该 组 合 
函数 ， 求 出 y 值 ， 并 与 该 样 点 的 y 值 相 比较 ， 并 根据 结 
果 来 判断 该 样 点 落 入 了 该 函数 曲线 上 方 还 是 下 方 从 而 
判断 该 样 点 属于 哪 一 类 。 当 然 ， 图 中 所 有 的 下 和 4b 参 
数 ， 都 需要 经 过 程序 代码 的 穷 举 迭 代 而 逐渐 寻找 出 
来 。 值 得 一 提 的 是 ， 机 器 学 习 的 目的 并 不 是 要 画 出 这 
条 曲线 ， 而 只 是 找到 了 一 堆 恰好 能 够 让 分 类 正确 率 最 
高 的 参数 下 和 b5， 而 如 果 用 这 些 参数 来 画 曲线 的 话 会 
发 现 真 的 会 画 出 一 条 类 似 的 曲线 。 

人 们 将 该 流程 图 中 的 用 于 将 一 个 或 者 多 个 值 与 某 
个 权重 值 相 乘 ， 然 后 结果 再 相 加 起 来 的 运算 步骤 ， 称 
为 一 个 乘 加 单元 ， 或 者 神经 元 (Neural) 。 乘 加 运算 
步骤 被 说 成 是 神经 元 ， 这 是 不 是 真 的 有 点 儿 神经 了 ? 
就 像 卖 药 骗子 把 触摸 感应 灯 包装 成 量子 治 病 神 灯 一 
样 。 其 实 ， 谓 之 神经 元 是 由 于 该 乘 加 单元 的 作用 与 人 


脑 神经 元 细胞 的 作用 方式 非常 相似 。 比 如 拿 图 12-22 
中 左 侧 中 的 2s 这 个 神经 元 来 讲 ， 其 输入 是 两 路 信号 ， 
输出 一 路 信号 ， 如 果 该 神经 元 对 到 ;3 这 路 信号 不 感 兴 
趣 ， 那 么 到 ,的 值 就 会 被 调 的 很 低 ， 具 体 体现 在 神经 
元 细胞 突 触 接收 到 电化 学 信号 之 后 的 响应 程度 比如 
本 书 尾声 中 所 描述 的 钠 钾 离子 泵 的 激活 程度 ) ， 最 终 
很 有 可 能 导致 该 神经 元 输出 信号 值 也 很 低 ， 也 就 是 该 
神经 元 最 终 的 被 激活 (Activated) 的 程度 较 低 ， 或 者 
说 该 神经 元 对 画 ,这 路 信号 不 敏感 ， 如 果 把 到 这 路 信 
号 比喻 成 某 显 卡 厂商 的 某 显 卡 正式 上 市 销售 事件 的 
话 ， 那 么 对 于 该 神经 元 的 另 一 路 信号 到 ss 可 能 就 是 该 
显卡 的 价格 ， 对 于 冬瓜 哥 这 种 穷 得 只 剩 下 情怀 的 人 ， 
而 且 还 是 个 游戏 画面 党 ， 歼 :这 路 信和 号 一 定 会 对 该 神 
经 元 导致 强 激活 ， 假 设 该 路 信号 最 终 激励 值 为 8000; 
但 是 同时 到 的 值 可 能 是 -1， 因 为 10000 元 的 价格 对 冬 
瓜 哥 来 说 非常 敏感 ， 这 样 ， 该 神经 元 最 终 输出 的 激励 


Па WasS(Wia2x+bia+ bia) Wao + 


— f Fully Connected 


本 有 Was HOST 


图 12-22 神经 网 络 示 意图 


值 =8000-10000=-2000， 直 接 导 致 该 神经 元 被 去 激活 
(Deactivated) 。 当 然 ， 对 于 那些 瑟 4 的 值 为 0 的 人 而 
言 ， 他 们 的 最 终 激励 值 为 8000， 他 们 的 生理 反应 则 是 
买 买 买 。 一 个 神经 元 细胞 可 能 会 有 更 多 输入 突 触 ， 如 
果 有 另 一 个 输入 信号 的 权重 是 10000， 该 信号 承载 的 是 脑残 
值 的 话 ， 那 么 脑残 值 只 要 为 1，-2000+10 000= 8000， 就 
能 让 该 神经 元 强 激活 了 。 当 然 还 可 以 有 另外 的 各 种 
输入 ， 比 如 妻子 最 近 的 心情 值 、 涨 工资 预期 值 等 。 
提示 * 

这 么 看 来 ， 神 经 元 似乎 更 像 是 一 种 多 输入 的 
或 门 ， 而 激励 函数 则 是 或 门 前 方 的 其 他 门 ， 比 如 非 
п, 或 门 和 非 门 共同 形成 或 非 门 。 与 数字 电路 或 门 
不 同 的 是 ， 神 经 元 可 以 输出 连续 变化 的 值 ， 而 数字 
或 门 只 能 输出 1 或 者 0。 而 且 或 和 加 这 两 种 关系 看 上 
去 类 似 ， 但 是 还 是 有 不 同 。 或 和 加 的 关系 在 第 1 章 中 
也 提 到 过 。 


所 以 ， 图 12-22 中 的 运算 流程 步骤 被 整体 上 称 为 
神经 网 络 (Neural Network) ， 而 放置 在 神经 元 下 游 
的 对 神经 元 输出 值 做 调制 整 型 处 理 的 函数 ， 被 称 为 激 
活 函数 ， 因 为 它 处 理 的 是 神经 元 输出 的 激活 值 /激励 
值 ， 而 并 不 是 说 它 把 神经 元 给 激活 了 ， 不 是 这 意思 ， 
当然 它 也 可 以 把 激励 值 放大 或 者 降低 ， 让 原本 不 激活 
的 神经 元 强行 激活 ， 也 可 以 让 原本 激活 的 神经 元 去 激 
活 ， 具 体 还 得 看 用 了 何 种 激励 函数 。 如 果 是 Sigmoid 
函数 ， 不 乘 以 任何 系数 的 话 ， 不 管 之 前 激励 值 是 多 
少 ， 到 了 它 这 统统 被 限制 在 0O 和 1 之 间 ， 所 以 称 之 为 激 
励 函 数 更 合适 ， 激 励 一 下 ， 至 于 活 不 活 则 是 两 码 事 ， 
可 能 激励 完 后 反而 不 活 了 ， 此 时 你 硬 叫 它 激励 函数 就 
是 误导 了 。 有 时 候 我 在 想 是 不 是 对 于 我 这 种 写 书写 到 
苍白 不 食 人 间 烟 火 的 人 来 讲 ， 这 4 年 把 我 脑子 里 的 神 
经 元 退化 成 跟前 全 都 是 不 带 系数 的 Sigmoid 激 励 函 数 
了 。 对 于 上 文中 所 叙述 的 例子 而 言 ， 当 代入 某 个 样 点 
值 的 x 到 神经 网 络 中 运算 时 ， 经 过 某 个 神经 元 处 理 后 
的 值 就 是 该 神经 元 所 表示 的 函数 曲线 对 应 的 y 值 ， 也 
可 以 看 作 是 该 曲线 对 x 值 的 激活 值 。 


再 次 强调 ， 神 经 网 络 只 不 过 是 一 种 算法 流程 ， 
画 到 纸 上 像 网 络 一 样 ， 而 每 个 乘 加 单元 真 的 像 生物 
神经 元 一 样 ， 加 起 来 被 称 为 神经 网 络 。 至 于 你 是 
利用 CPU 软件 代码 来 实现 这 个 神经 网 络 运算 流程 ， 
还 是 使 用 专用 的 数字 电路 来 实现 ， 都 是 可 以 的 ， 
不 过 最 终 我 们 会 看 到 由 于 运算 量 过 大 ， 靠 CPU 在 多 
数 场景 是 无 法 满足 需求 的 ， 必 须 依靠 专用 芯片 ， 比 
如 GPU、FPGA 和 专用 ASIC 来 运算 。 当 然 ， 市 场 总 
是 喜欢 将 这 些 技术 包装 成 各 种 概念 ， 诸 如 “类 脑 ” 
芯片 之 类 。 人 脑 据 说 包含 数 百 亿 个 神经 元 ,而 目 
前 的 神经 网 络 运算 加 速 芯片 最 多 也 就 包含 几 十 万 到 


#125 Уши ЕТЕНЕ 


一 百 万 个 乘 加 单元 ， 只 不 过 其 运算 频率 要 比 人 脑 快 
得 多 ， 人 脑 的 运算 频率 据说 等 效 于 50Hz ( 另 有 一 说 
是 100Hz， 不 过 没有 本 质 区 别 ) 。 


上 帝 视角 下 给 出 的 正确 答案 ， 并 不 一 定 会 被 程序 
最 终 发 现 ， 可 能 最 终 发 现 的 是 正确 答案 近似 值 ， 正 确 
率 要 低 一 些 。 那 么 既然 如 此 ， 你 并 不 知道 程序 会 学 习 
到 什么 样 的 参数 ， 那 一 开始 又 怎 会 知道 每 个 零件 都 需 
ЕҢ АТЫН ЖІК? 如 果 只 需要 一 个 ， 或 
者 必须 要 三 个 或 者 更 多 线段 来 琶 加 才能 达到 更 高 精度 
的 近似 怎么 办 ? 哎 ， 不 如 干脆 这 样 ， 把 所 有 小 零件 线 
段 同 时 输送 给 所 有 神经 元 ， 这 些 神经 元 想 用 哪个 就 用 
哪个 。 于 是 就 形成 了 图 12-22 右 侧 所 示 的 网 络 连接 方 
Ж. 全 连接 。 如 果 觉 得 拟 合 精度 有 待 提高 的 话 ， 还 可 
以 把 最 后 一 层 神 经 元 的 数量 增加 ， 让 它们 可 以 产生 更 
大 量 的 小 零件 来 拼凑 出 精度 更 高 的 目标 函数 曲线 。 

全 连接 的 必要 性 体现 在 : 是 否 购买 这 破 显卡 可 
能 会 触发 更 多 下 游 问题 ， 比 如 至 少 会 输送 到 神经 网 络 
中 的 财务 中 枢 ， 如 果 一 下 子 花 掉 一 万 元 ， 会 对 后 续 很 
多 财务 规划 有 关 的 神经 元 产生 高 权重 的 信号 激励 。 所 
以 可 能 某 个 神经 元 的 输出 要 同时 被 输送 给 多 个 其 他 神 
经 元 。 当 然 ， 有 些 神经 元 可 能 八 竿 子 打 不 着 ， 比 如 下 
一 刻 是 否 要 喘 口 气 ， 你 决定 不 买 显卡 应 该 不 至 于 让 你 
ЖЕШКЕ? 那么 输送 过 来 的 信号 就 会 被 加 上 很 低 的 
权重 而 被 负责 喘气 的 神经 元 忽略 掉 。 所 以 ， 如 果 把 某 
个 神经 元 的 输出 值 输送 给 大 量 相关 度 不 大 的 下 游 神 经 
元 ， 就 可 能 会 导致 过 度 拟 合 ， 比 如 程序 一 不 小 心 没 调 
节 好 权重 ， 导 致 束 气 ， 那 就 真有 点 儿 神 经 了 ， 如 果 经 
过 长 期 的 训练 而 固化 下 来 ， 那 整 天 稍 有 个 事情 哪怕 是 
高 兴 的 事 也 唉 声 叹 气 的 也 不 是 个 事 。 实 际 在 设计 神经 
网 络 时 会 有 很 多 考究 和 优化 思路 ， 这 里 就 不 再 展开 讲 
了 ， 实 话 告诉 你 其 实 我 也 不 懂 。 

所 以 ， 如 果 某 个 上 游 神经 元 输出 的 小 零件 对 于 
某 个 下 游 神经 元 是 根本 不 需要 的 怎么 办 ? 不 要 就 可 以 
把 对 应 的 下 值 置 为 0%， 任 何 值 乘 以 0 都 等 于 0， 然 后 其 
他 值 与 0 相 加 等 于 什么 都 不 加 ， 没 任何 变化 ， 如 果 不 
需要 对 结果 进行 放大 或 者 缩小 ， 那 么 可 以 把 琴 值 置 为 
1， 乘 以 1 还 等 于 自身 ， 无 变化 。 至 于 如 此 多 参数 中 
的 哪个 是 0 或 者 1， 那 就 要 扔 给 机 器 学 习 过 程 〈 给 一 个 
错误 率 期 望 值 ， 然 后 用 梯度 下 降 法 穷 举 和 迭代 ) 中 来 确 
定 了 。 当 然 ， 对 于 这 样 的 参数 ， 最 终 由 机 器 确定 的 值 
可 能 并 不 是 1 和 0， 而 是 0.95，0.99 或 者 0.001，0.2， 都 
有 可 能 。 那 就 表明 机 器 最 终 还 是 制造 出 了 极 小 的 零件 
ВТ ER, SEMERE. 


值得 一 提 的 是 ， 最 终结 果 如 果 以 是 否 大 于 0 来 一 
刀 切 的 话 ， 有 时 候 也 很 不 准 ， 如 果 能 够 以 “远离 0 的 
程度 ”来 判断 分 类 ， 则 更 加 科学 。 这 就 变 成 了 一 个 概 
率 问题 ， 越 远离 0， 是 或 者 不 是 某 一 类 的 概率 更 大 。 
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上 文中 的 例子 都 属于 二 元 分 类 ， 也 就 是 待 分 类 的 
样本 不 是 4 就 一 定 是 B。 如 果 样 本 可 以 分 成 多 类 (多 
元 分 类 ) 的 话 ， 那 么 就 无 法 使 用 一 条 连续 的 曲线 来 
划分 ， 必 须 分 又 ， 如 图 12-23 (а) 所 示 。 但 是 我 们 可 
以 用 另外 一 种 思路 ， 如 图 12-23 (b) 一 图 12-23 (d) 
所 示 ， 完 全 可 以 采用 三 个 独立 的 分 类 分 别 隔 离 出 每 
一 类 来 ， 然 后 三 个 分 类 并 行 计算 。 如 果 某 个 样 点 为 
红 三 角 ， 那 么 图 12-23 (b) 会 说 “结果 小 于 0， 这 不 
是 绿色 ”， 图 12-23(c) 会 说 “结果 小 于 0， 这 不 是 
ке", 2-23 (4) 会 说 “结果 大 于 0， 这 是 红 
色 ”， 把 这 三 个 分 类 判断 输出 的 结果 做 一 次 逻辑 运 
算 ， 就 可 以 综合 判断 该 样 点 的 最 终 分 类 。 为 此 ， 我 们 
可 以 设计 如 图 12-24 所 示 的 神经 网 络 ， 相 当 于 同时 并 
排 了 三 个 独立 的 分 类 器 。 问 题 是 ， 排 了 三 个 独立 分 类 
器 ， 程 序 穷 举 结果 一 定 就 是 三 个 独立 分 类 器 么 ? 的 确 
是 ， 因 为 程序 会 不 断 鞭 策 自己 改 错 ， 最 终 交 付 的 答卷 


(a) (b) 


会 趋 近 于 正确 答案 ， 机 器 学 习 看 上 去 就 这 样 神奇 。 

现在 考虑 另外 一 种 分 类 情况 ， 如 图 12-25 左 侧 所 
示 。 冬 瓜 哥 记得 初中 数学 就 已 经 开始 学 圆 和 椭圆 的 解 
析 几 何 了 ， 如 果 那 时 候 能 知道 其 应 用 场景 ， 估 计 能 更 
有 目的 地 学 习 和 记忆 。 不 过 冬瓜 哥 不 得 不 在 网 络 上 搜 
索 了 一 番 才 逐渐 回忆 起 圆 曲线 的 解析 式 为 (x-a)*+(y- 
=r*?， 其 中 (a,b) 为 圆心 坐标 ，7 为 圆 的 半径 。 
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应 的 (xy) 样 点 就 落 入 了 圆 内 ， 而 车 >0 则 落 入 圆 外 。 但 
是 ， 你 会 发 现 用 上 文 所 述 的 曲线 拟 合 方式 无 法 拟 合 
出 这 种 一 个 x 可 能 对 应 两 个 y 值 的 曲线 ， 这 类 曲线 属于 
二 次 曲线 ， 其 解析 式 中 一 定 包 含有 y、x 以 及 xy 乘 积 
项 。 此 时 需要 另辟蹊径 。 

如 果 把 (x-a)* 和 (vw-5)" 各 自 看 成 是 一 个 单独 变量 
和 了 的 话 ， 那 么 Xt 了 yr=0 就 是 该 圆 的 解析 式 ， 此 时 可 
以 这 样 认为 : X 和 了 7 呈 直线 关系 ， 那 么 (x-a》 和 (y-b)? 也 
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图 12-24 ”并 排 三 个 独立 分 类 器 


图 12-25 


>0 了 


或 
<0? 


需要 二 次 宕 函数 才能 表达 的 曲线 


呈 直 线 关系 。 那 么 也 就 是 说 ， 如 果 某 个 样 点 区 尺 代 入 
对 斑 产后 结果 >0， 落 在 直线 上 方 ， 则 表明 样 点 Ce 世代 
A(-ay-(y-by-r«0, WEAK. ЗАҢ, Sg — 
次 曲线 问题 转换 成 了 一 个 线性 分 类 问题 来 求解 ， 此 时 
先 将 x 变 为 (x-a) 再 执行 与 线性 分 类 同样 的 过 程 即 可 ， 
机 器 会 自动 学 习 出 合适 的 a 和 Bb 以 及 /的 值 。 这 个 变换 
过 程 被 称 为 非 线 性 变换 ， 相 当 于 在 更 高 的 维度 上 ， 换 
了 个 角度 来 观察 曲线 和 样 点 的 分 布 规律 ， 有 了 时候 可 以 
极 大 地 简化 分 析 过 程 ， 同 样 的 事情 也 发 生 在 傅 里 叶 变 
dec ips RU ӨЧЕН, TEUER 7] FH 
滤波 器 滤 掉 某 个 频段 的 信号 ， 就 相当 于 在 时 域 上 精 挑 
细 选 一 个 一 个 的 去 抽 丝 来 解决 问题 ， 哪 个 方法 更 方便 
高 下 立 判 ， 显 然 是 前 者 ! 


这 里 其 实 可 以 回顾 一 下 图 12-7 右 侧 的 场景 ， 当 
时 采用 了 4 根 直线 用 与 或 非 方式 来 切割 出 中 央 的 类 
别 ， 相 当 于 用 了 一 个 四 边 形 来 隔离 中 央 区 域 ， 而 用 
更 多 直线 进行 与 或 非 切割 ， 只 要 直线 数量 足够 多 ， 
就 可 以 实现 八 边 形 ， 八 十 边 形 ， 八 百 边 形 ， 最 终 就 
近似 为 一 个 圆 形 。 这 里 可 以 深入 体会 一 下 采用 不 同 
视角 和 方法 得 到 的 殊途同归 的 效果 。 如 果 再 更 深入 
地 思考 一 下 的 话 ， 你 会 体会 到 世间 万 物 的 一 种 普遍 
规律 ， 那 就 是 万 物 似乎 是 在 不 同 维度 上 被 登 加 在 一 
起 的 ， 这 个 思想 在 第 1 章 中 介绍 波 的 登 加 时 就 可 以 
看 到 ， 两 个 波 相 加 ， 其 实 是 一 个 波 4 把 另 一 个 波 B 按 
照 4 的 振荡 频率 和 振幅 整体 在 第 二 层 维 度 上 振荡 起 
来 ， 而 在 第 一 层 维度 上 ， 了 依然 按照 自己 的 频率 和 
振幅 振动 。 上 文中 所 述 的 乘积 项 、 二 次 项 等 各 自 按 
照 自身 内 部 的 规律 对 输入 值 计算 输出 值 ， 但 是 这 些 
项 之 间 在 第 二 层 维度 上 共同 形成 了 线性 关系 ， 每 个 
项 内 部 的 关系 再 怎么 复杂 ， 在 高 维度 上 每 个 项 的 作 
用 域 就 被 限定 在 自己 内 部 了 。 整 个 世界 仿佛 是 一 层 
层 嵌 套 起 来 的 ， 比 如 星系 中 某 个 恒星 系 有 自身 的 运 
动 规律 ， 而 多 个 大 星系 之 间 在 高 维度 上 可 能 体现 为 
另 一 种 运动 规律 ， 比 如 呈 对 数 螺 线 状 排列 ， 而 豆芽 
在 生长 初期 也 是 按照 对 数 螺 线 方式 卷曲 的 。 
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同 理 ， 如 果 是 图 12-25 中 间 所 示 的 多 元 分 类 问 
题 ， 可 以 与 图 12-22 所 示 的 场景 照 葫芦 画 标 ， 设 置 多 
个 独立 分 类 器 即 可 。 但 是 可 以 发 现 ， 图 12-24 中 间 以 
及 右 侧 的 场景 对 应 的 曲线 并 不 是 正 圆 ， 那 么 其 解析 式 
中 需要 扒 杂 入 更 高 次 的 项 才能 拟 合 出 这 些 曲 线 ， 这 个 
思路 与 用 多 个 经 过 Sigmoid 函 数 处 理 后 的 直线 线段 来 
拟 合成 任意 曲线 是 一 致 的 。 如 图 12-26 所 示 为 引入 一 
些 4 次 项 之 后 的 经 典 曲线 。 针 对 高 次 多 项 式 ， 也 都 可 
以 利用 数学 的 方法 做 非 线 性 到 线性 的 转换 来 让 求解 过 
程 更 容易 ， 由 于 冬瓜 哥 的 数学 水 平实 在 太 漆 ， 没 有 能 
力 继续 深入 介绍 了 。 

值得 一 提 的 是 ， 高 次 项 越 多 ， 越 容易 产生 过 度 拟 
合 ， 如 图 12-26 右 侧 情况 所 示 ， 这 种 情况 相当 于 机 器 
过 于 聪明 了 ， 学 看 了 ， 但 是 眼界 格局 不 够 ， 它 用 了 一 
个 复杂 的 曲线 拟 合 了 5 个 点 。 对 于 过 度 拟 合 ， 有 一 些 
优化 方法 来 应 对 ， 比 如 和 为 加 入 限定 条 件 、 规 定 某 些 
参数 必须 为 0 或 者 在 某 个 范围 ， 等 等 。 

另外 ， 使 用 一 次 还 是 二 次 曲线 模型 来 让 机 器 学 
习 ， 这 个 就 得 是 人 为 指定 的 了 ， 不 能 指望 着 随便 扔 给 
机 器 一 个 神经 网 络 ， 机 器 最 后 就 能 自动 分 析出 该 模型 
到 底 采 用 一 次 还 是 二 次 甚至 更 高 次 才 更 合适 ， 目 前 机 
器 还 做 不 到 这 种 自动 分 析 。 不 过 可 以 把 “ 遇 到 什么 场 
景 用 什么 模型 ”这 个 经 验 本 身 以 机 器 学 习 的 方式 让 机 
器 针对 这 个 规律 建立 一 个 拟 合 函数 ， 或 许 体现 这 个 规 
律 的 函数 本 身 也 是 一 次 或 者 多 次 的 ， 然 后 让 机 器 先 根 
据 模 型 特征 判断 出 用 几 次 函数 来 拟 合 ， 然 后 再 自动 用 
对 应 的 模型 学 习 出 最 终 参 数 。 

综 上 ， 利 用 神经 网 络 可 以 拟 合 出 任意 函数 曲线 ， 
只 是 对 于 复杂 曲线 ， 其 需要 穷 举 的 参数 也 就 越 来 越 
多 ， 学 习 过 程 也 会 越 来 越 慢 。 这 里 面 激励 函数 充当 了 
线段 调制 器 的 角色 ， 除 了 Sigmoid 之 外 ， 还 有 其 他 多 
种 调制 器 ， 比 如 Tanh、ReLU 等 ， 这 些 调制 器 都 可 用 
来 全 加 出 各 种 曲线 ， 其 区 别 就 相当 于 七 巧 板 、 乐 高 等 
ААА), ЖИВЕЛА ЖР. ЖӘНЕ, Ж 
的 用 带 折 弯 的 基本 原件 拼 搭 ， 但 是 只 要 数量 够 多 ， 最 
后 都 能 拼接 出 不 同 风格 感 观 的 高 层 物体 。 

我 们 再 把 思维 切换 回 如 图 12-8 所 示 的 场景 ， 你 会 
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发 现 我 们 绕 了 一 大 圈 又 绕 回去 了 ， 图 12-8 利 用 多 条 直 
线 来 切割 出 一 个 圆 进 行 分 类 ， 而 上 文中 则 是 用 高 次 项 
拟 合 出 一 个 圆 。 坊 间 流 传 着 爱迪生 的 一 个 学 生 用 高 等 
数学 测量 灯泡 的 体积 ， 另 一 个 学 生 直 接 把 灯泡 浸入 水 
中 测量 水 面 上 升 高 度 来 测量 灯泡 体积 ， 殊 途 同 归 。 但 
如 果 仔 细 思 考 一 下 的 话 会 发 现 一 个 惊人 的 结论 ， 那 就 
是 利用 水 面 上 升 高 度 求 体积 的 过 程 ， 其 实 是 利用 了 自 
然 规律 来 运算 而 且 运 算 速 度 惊人 ! 试想 一 下 ， 把 灯泡 
浸入 水 中 ， 灯 泡 周围 的 水 分 子 会 被 挤 压 贴 合 在 灯泡 表 
面 ， 其 将 挤 压力 传递 给 其 他 水 分 子 ， 大 量 水 分 子 之 间 
相互 作用 ， 将 力量 传递 到 容器 侧 壁 ， 反 作用 力 继续 传 
递 ， 最 终 让 其 他 水 分 子 上 升 ， 体 现 为 水 面 的 上 升 ， 最 
终 达 到 各 角度 力 的 平衡 ， 而 所 有 分 子 恰好 停止 在 对 应 
高 度 ， 这 一 切 都 是 底层 规律 在 精确 计算 的 结果 ， 而 这 
个 过 程 在 瞬间 就 完成 了 大 量 并 行 计算 。 当 然 ， 有 些 人 
可 能 想 不 通 ， 加 进 多 少 体积 ， 水 面 必 然 上 升 多 少 体 
积 ， 天 经 地 义 ， 被 你 这 人 么 一 说 反而 感觉 迷茫 了 ， 天 
经 地 义 这 4 个 字 也 是 值得 思考 一 番 的 ， 经 什么 ， 义 什 
么 ,怎么 经 的 ， 又 是 怎么 义 的 。 

那么 图 12-8 中 所 示 的 与 或 非 关 系 ， 是 否 可 以 用 神 
经 元 和 激励 函数 来 实现 ? 也 就 是 说 ， 对 于 或 的 关系 ， 
如 果 两 个 或 者 多 个 输入 中 有 一 个 是 大 于 0 的 ， 输 出 就 
大 于 0， 对 于 与 的 关系 ， 多 输入 信号 中 有 一 个 是 小 于 0 
的 ， 输 出 就 小 于 0。 完 全 没有 问题 ， 如 图 12-27 所 示 
只 要 选取 合适 的 丈 参 数 和 bias 值 ， 就 可 以 实现 与 或 非 
的 逻辑 ， 当 然 ， 由 于 神经 网 络 的 输入 信号 并 不 是 非 0 
即 1， 是 连续 的 值 ， 但 是 依然 会 有 取 反 的 效果 。 这 样 
就 可 以 用 统一 的 神经 元 实现 乘 加 和 与 或 非 操 作 ， 不 需 
要 引入 额外 的 专用 逻辑 运算 部 件 。 

有 了 这 种 可 能 性 之 后 ， 只 要 让 神经 网 络 自己 去 
迭代 并 最 终 找 出 合适 的 参数 即 可 。 进 一 步 思 考 ， 本 例 
中 ， 神 经 网 络 在 迭代 时 ， 到 底 是 按照 与 或 非 方式 来 画 
出 这 个 圆 ， 还 是 按照 圆 解析 式 〈 上 文中 介绍 过 的 非 线 
性 变换 方式 ) 来 画 出 这 个 圆 ? 这 的 确 是 个 值得 深思 的 
问题 ， 到 底 选用 哪 条 求解 路 径 ， 似 乎 取决 于 神经 元 的 
排 布 方式 ， 同 时 也 似乎 取决 于 所 给 出 的 Loss 函 数 的 引 
导 路 径 。 或 者 ， 最 终 的 求解 路 径 是 两 种 方式 的 混合 ? 
或 者 还 存在 其 他 某 种 人 类 尚未 理解 的 刁钻 路 线 ?又 或 
者 这 两 者 本 质 上 根本 就 是 一 致 的 ， 就 是 同一 种 规律 的 
不 同 角度 投射 ? 这 就 不 得 而 知 了 ， 等 待 你 我 去 探索 。 

怎么 样 ， 体 会 到 野 路 子 和 学 院 派 的 区 别 了 么 ? 其 
实 ， 正 如 上 文 所 述 ， 学 院 派 输出 的 结果 一 定 是 放 之 四 
海 皆 准 的 通用 结论 ， 而 野 路 子 可 能 根本 不 管 底层 是 怎 
么 实现 的 ， 只 要 上 层 模拟 出 来 的 足够 相似 能 解决 问题 
就 好 。 或 者 说 ， 学 院 派 输出 的 精确 解析 式 ， 当 某 某 参 
数组 合 为 某 某 时 ， 体 现 出 与 或 非 的 关系 。 所 以 ， 还 是 
同时 持 有 这 两 种 思维 更 好 。 

你 还 会 发 现 Sigmoid 等 激励 函数 的 功能 与 电路 
中 的 三 极 管 极其 相似 ， 在 线性 放大 区 ， 三 极 管 输出 
信和 号 随 输入 信号 同 频 ， 且 振幅 是 输入 信号 的 若干 倍 


(线性 放大 态 ) ， 但 是 当 输 入 信号 达到 一 定 门限 之 
后 ， 三 极 管 输入 值 恒定 《饱和 态 )》 ， 如 果 将 三 极 管 
用 作 数 字 逻 辑 电路 ， 其 工作 在 饱和 态 ， 而 将 其 用 于 
模拟 电路 时 ， 则 工作 在 线性 放大 态 。 此 时 你 应 该 已 
经 深入 体会 到 神经 网 络 的 数字 电路 模拟 电路 的 相似 
之 处 了 。 

至 此 ， 我 们 的 思路 被 限定 在 了 分 类 问题 的 解决 
上 ， 同 时 被 限定 在 了 二 维 样本 点 (x,y) 的 条 件 之 下 。 在 
12.1 节 中 介绍 的 那个 场景 则 属于 针对 多 维度 样本 点 的 
回归 分 析 过 程 。 那 么 ， 利 用 神经 网 络 是 否 可 以 实现 针 
对 多 维 样 本 点 的 回归 和 分 类 ? 比如 有 一 堆 四 维 向 量 样 
本 点 : x={ 年 龄 ， 职 业 ， 性 别 ， 收 入 }， 或 者 将 其 表达 
Ax Qs xi eax }， 现 在 需要 做 一 个 收入 预测 器 ， 
要 求 用 神经 网 络 对 这 份 已 知 样本 做 一 个 回归 分 析 。 
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12-27 使 用 神经 元 和 Sigmoid 激 励 函 数 做 与 或 非 操作 示意 图 
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前 文中 已 经 分 析 过 ， 每 个 样本 点 内 部 多 个 维度 的 值 
之 间 是 有 相互 关系 和 规律 的 ， 正 因 如 此 才 可 能 存在 某 种 
固定 规律 ， 使 用 大 量 样本 点 只 是 为 了 让 预测 更 加 准确 而 
已 。 所 以， 其 中 某 些 维度 对 另外 一 个 维度 值 的 影响 ， 就 
可 以 类 似 表达 成 : A=W, XER, Х НИМ Х ЕЯ] 
+ 所 4X 收 入 + 常数 。 只 要 求 出 所 有 到 值 即 可 。 

于 是 采用 图 12-28 中 所 示 的 神经 网 络 ， 由 于 本 例 
中 的 维度 是 4/， 所 以 图 中 的 n=3， 那 意味 着 要 用 三 个 如 
图 12-22 左 侧 所 示 的 神经 网 络 分 别 求 出 年 龄 、 职 业 和 
性 别 对 收入 的 贡献 规律 ， 然 后 再 将 这 三 个 贡献 值 各 自 
乘 以 一 个 权重 ， 最 后 相 加 ， 得 出 预测 的 收入 。 当 然 
在 训练 的 时 候 需 要 先 用 正确 答案 去 滋养 神经 网 络 ， 把 
规律 固化 到 各 个 参数 中 ， 最 后 杜 陶 出 一 个 能 够 预测 未 
知 样本 收入 的 神经 网 络 。 


@ 


图 12-28 多 维度 向 量 

如 果 最 终 的 预测 正确 率 不 够 理想 ， 那 么 可 能 需 
要 引入 更 复杂 的 二 次 、 三 次 甚至 更 多 次 的 函数 模型 ， 
此 时 就 需要 用 上 文中 介绍 过 的 非 线 性 到 线性 之 间 的 变 
换 来 解决 问题 。 在 利用 神经 网 络 做 回归 分 析 之 后 ， 做 
分 类 也 自然 不 在 话 下 ， 比 如 将 收入 按照 数额 分 成 小 于 
1000、1000 一 5000 等 多 个 类 别 ， 只 要 将 预测 出 的 数值 
匹配 这 几 个 类 别 范 围 即 可 。 
jm 

值得 一 提 的 是 ， 利 用 神经 网 络 最 终 只 能 拟 合 ， 
而 无 法 推导 出 精确 的 解析 式 ， 只 能 无 限 接近 标准 答 
案 。 比 如 上 面 的 标准 答案 是 : KAW x АИ, х 
职业 + 到 ;xX 性别 + 到 ;XxX 收入 + 常数 ， 只 需要 求 出 几 个 到 
值 即 可 ， 而 实际 的 神经 网 络 中 有 很 多 神经 元 ， 多 个 通 
路 ， 每 个 通路 都 有 一 个 权重 值 ， 神 经 网 络 只 能 告诉 
你 神经 网 络 内 部 的 这 些 权重 值 是 多 少 ， 至 于 它 拟 合 
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出 来 的 是 何 种 曲线 ， 上 面 的 两 -4 的 具体 值 是 多 少 ， 就 
无 能 为 力 了 ， 此 时 就 需要 人 来 判断 了 。 比 如 最 终 如 
果 发 现 拟 合 出 来 的 是 一 条 接近 直线 的 曲线 ， 那 就 可 
以 再 次 利用 本 章 一 开始 介绍 线性 回归 过 程 直接 求解 
直线 参数 即 可 。 所 以 ， 神 经 网 络 其 实 只 是 将 一 些 步 
又 无 脑 化 处 理 了 ， 甚 至 本 来 很 简单 的 事情 ， 也 可 以 
先 交 给 神经 网 络 来 拟 合 ， 看 看 具体 是 什么 规律 ， 然 
后 再 转 到 简化 模型 处 理 。 当 然 ， 神 经 网 络 用 来 拟 合 
那些 极其 复杂 的 、 无 法 用 简洁 解析 式 表达 的 函数 关 
系 ， 或 者 只 能 用 超级 复杂 的 解析 式 表达 的 ， 运 算 该 
解析 式 耗 费 的 算 力 与 直接 代入 神经 网 络 运算 消耗 的 
算 力 是 相当 的 ， 这 种 场景 就 非常 适合 直接 用 神经 网 
络 来 找 规律 并 在 后 续 持续 对 未 知 样本 做 识别 预测 。 


多 维度 分 类 的 另 一 个 典型 应 用 场景 就 是 图 像 识 
别 。 如 图 12-29 所 示 为 数字 “3” 的 手写 图 像 示意 图 。 
那些 被 图 形 轨迹 占据 的 部 分 的 像素 由 于 有 较 高 的 颜色 / 
灰 度 浓度 ， 所 以 其 编码 之 后 的 二 进 制 数值 也 就 更 大 ， 
这 里 假设 最 高 值 是 1.0， 最 低 值 是 9。 相 信 读 者 已 经 在 
第 8 章 深刻 理解 了 计算 机 图 像 的 本 质 ， 这 里 就 不 再 歼 
述 其 底层 原理 了 。 


图 12-29 手写 数字 对 应 的 图 像 
为 了 简化 起 见 ， 冬 瓜 哥 制作 了 图 12-30， 其 中 ， 


数字 “2” 有 多 种 不 同 的 形状 ， 这 里 取 了 其 中 两 种 用 
作 示例 。 每 幅 图 像 都 是 8X 8 分 辨 率 ， 也 就 是 由 64 个 像 
素 点 组 成 。 每 个 被 占据 的 像素 点 值 假设 为 1， 没 被 占 
据 的 像素 点 值 为 0。 

每 幅 图 片 其 实 是 一 个 64 维 的 向 量 ， 向 量 中 的 每 个 
元 素 就 是 一 个 像素 。 如 果 将 这 64 个 像素 展开 ， 便 形成 
图 12-30 下 方 所 示 的 图 样 。 

现在 想 利用 神经 网 络 来 识别 这 些 手写 数字 ， 可 
以 将 这 64 维 的 向 量 输入 到 一 个 神经 网 络 ， 如 图 12-31 
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所 示 。 假 设 我 们 要 识别 数字 “1”， 那 么 就 把 1 图 形 对 
应 的 64 维 向 量 中 的 被 占据 的 那些 像素 对 应 的 元 素 对 应 
的 权重 设置 为 一 个 较 高 值 ， 比 如 10; 而 将 没 被 占据 的 
像素 对 应 的 权重 值 设置 为 一 个 较 低 值 ， 比 如 0。 我 们 
想 让 该 神经 网 络 当 识别 到 数字 “1” 的 形状 时 ， 神 经 
元 被 激活 为 高 水 平 值 ， 则 可 以 将 其 设置 为 如 图 12-31 
(а) 所 示 的 架构 ， 也 就 是 将 数字 1 图 形 中 的 被 占据 像 
素 点 对 应 位 置 的 权重 设置 为 10， 其 他 则 设置 为 0%， 那 
么 ， 当 输入 图 形 为 “1” 时 ， 激 活 值 =8X10=80， 如 
果 输 入 的 图 形 不 是 数字 1， 而 是 2 的 时 候 ， 虽 然 数字 2 
对 应 的 图 形 中 有 些 像素 点 与 数字 1 占据 的 像素 点 相同 
(本 例 中 只 有 三 个 像素 相同 ) ， 但 是 总 体 的 命中 数 
量 小 于 输入 为 图 形 1 时 的 数量 ， 如 图 12-31 (b) 和 图 
12-31 (с) 场景 所 示 〈 两 者 激活 值 都 是 30) 。 而 要 想 
让 该 神经 网 络 识别 图 形 “2”， 那 么 就 将 “2” 对 应 图 
形 中 的 被 占据 像素 的 位 置 对 应 权重 设置 为 10， 如 图 
12-31 (d) 所 示 ， 这 样 ， 当 输入 信号 为 图 形 “2” 时 
该 神经 元 被 激活 为 高 水 平 值 (190 或 150) ， 而 当 输入 


为 其 他 数字 (比如 “1”) 对 应 图 形 时 ， 虽 然 也 可 能 
由 于 重 又 命中 而 产生 一 定 的 激活 水 平 (40) ， 但 不 会 
为 最 高 值 ， 如 图 12-31 (е) 所 示 。 

如 果 某 个 数字 存在 多 种 字形 ， 那 么 其 基本 轮廓 大 
致 相同 ， 但 是 会 有 相当 数量 的 像素 偏离 了 标准 轮廓 ， 
那 就 相当 于 将 所 有 可 能 的 字形 重 肘 在 一 起 ， 如 图 12-32 
所 示 。 用 这 些 重 番 在 一 起 的 像素 来 训练 ， 就 可 以 让 神 
经 网 络 识别 出 所 有 这 些 字形 ， 当 然 ， 如 果 有 些 在 训练 
时 没有 涵盖 到 的 奇 苑 字形 ， 那 么 只 要 这 些 字形 不 是 太 
偏离 训练 时 的 轮廓 ， 其 也 会 有 相当 的 识别 概率 。 

那么 如 何 让 神经 网 络 能 够 同时 识别 10 个 阿拉 伯 
数字 符号 中 的 任意 一 个 呢 ? 其 实 很 简单 ， 并 行将 64 个 
像素 信号 同时 输送 到 10 个 乘 加 单元 上 ， 然 后 将 对 应 10 
个 数字 形状 的 特征 权重 分 别 加 载 到 某 个 乘 加 单元 上 
游 。 这 样 ， 不 管 输入 的 是 哪个 数字 的 图 形 ， 该 数字 图 
形 对 应 的 乘 加 单元 的 激活 值 总 是 达到 较 高 水 平 ， 如 图 
12-33 所 示 ， 于 是 就 可 以 判断 出 当前 输入 的 图 形 是 哪 
个 数字 了 。 由 于 重 登 命中 的 不 可 避免 ， 神 经 网 络 最 终 
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12-30 ”将 图 像 展开 成 一 维 向 量 


图 12-31 利用 神经 网 络 识别 手写 数字 的 过 程 
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图 12-33 ”能 够 同时 识别 10 个 阿拉 伯 数 字 图 形 的 神经 网 络 


只 能 给 出 各 个 结果 的 概率 ， 比 如 数字 9 和 8 上 部 都 有 一 
个 圆圈 ， 所 以 其 重叠 部 分 比较 多 ， 而 可 能 有 人 在 手写 
9 字形 时 习惯 将 左下 角 向 上 折 弯 的 力度 更 大 一 些 ， 此 
时 就 极 有 可 能 产生 误 判 ， 人 脑 此 时 也 可 能 产生 误 判 ， 
尤其 是 近视 眼 ， 由 于 采样 模糊 ， 误 判 概率 更 大 。 

不 要 再 问 “ 那 么 每 个 乘 加 单元 前 端的 权重 是 怎么 确 
定 的 呢 ” 这 个 问题 了 ， 如 果 你 依然 对 这 一 点 感到 迷惑 ， 
那 你 还 没有 拧 过 劲 儿 来 。 权 重 不 是 人 为 指定 的 ， 而 是 靠 
程序 迭代 穷 举 出 来 的 ， 理 想 情况 下 可 以 穷 举 出 正确 答 
案 。 当 利用 训练 好 的 模型 来 做 识别 时 ， 面 对 未 知 的 手写 
数字 ， 与 训练 时 使 用 的 形状 可 能 有 或 多 或 少 的 出 入 ， 
但 是 差别 并 不 会 非常 大 ， 最 终 体 现 为 那些 有 差异 的 像 
素 多 数 集中 在 训练 时 使 用 的 形状 的 附近 ， 只 要 不 是 大 
量 的 与 其 他 数字 形状 像素 位 置 重合， 对 最 终 判 定 准确 
率 的 影响 就 是 有 限 的， 虽然 此 时 神经 元 的 绝对 激活 值 
会 降低 ， 但 是 相对 概率 仍然 会 保持 较 高 水 平 。 
提示 > 

这 看 上 去 有 点 儿 像 小 学 经 常 做 的 一 种 题目 : 看 
图 连 线 。 把 对 应 的 图 片 和 答案 连接 起 来 。 只 不 过 为 
了 做 到 用 同一 套 连 线 灵 活 变 更 ， 神 经 网 络 把 所 有 可 
能 连 线 都 预先 连 号 ， 同 时 采用 权重 激活 的 方式 激活 
某 个 连 线 。 向 一 个 训练 好 的 神经 网 络 输入 某 个 未 知 
样本 来 获知 该 样本 类 别 或 者 其 他 形式 结果 输出 的 过 
程 ， 被 称 为 模式 识别 ， 或 者 推理 ( Inference ) o 


对 于 其 他 图 形 ， 比 如 汉字 、 英 文字 母 等 ， 也 都 可 
以 利用 这 种 方式 来 识别 ， 只 不 过 实际 的 图 像 可 能 远 不 
止 64 个 像素 ， 可 能 会 有 16X16、28X28 等 更 多 像素 组 
成 ， 而 且 汉字 的 数量 庞大 ， 那 就 意味 着 有 庞大 的 类 别 
数量 ， 牵 扯 到 的 运算 量 就 更 大 。 所 以 ， 图 像 识别 这 类 
机 器 学 习 在 早期 算 力 严重 不 足 的 时 候 是 不 具备 工程 意 
义 的 ， 只 停留 在 假想 和 模拟 阶段 。 

上 面 这 个 图 像 识别 的 模型 好 像 与 之 前 利用 曲线 
在 平面 上 划分 区 间 的 分 类 方式 之 间 没 有 直接 的 联系 ， 
你 很 难 建立 一 个 直观 的 理解 。 其 原因 是 上 文中 的 例子 
要 么 是 二 维 样本 点 的 二 元 分 类 或 者 回归 ， 要 么 是 二 维 
样本 点 的 高 次 函数 曲线 分 类 或 者 回归 。 对 于 多 维 样本 
点 的 多 元 分 类 ， 上 文中 也 举 过 一 个 例子 ， 也 就 是 利用 
хе, ШИМИ, ЖЕЛІ, АМИН Ж НОВ ЈЕ 
龄 、 职 业 、 性 别 这 三 维 来 对 收入 这 个 维度 做 分 类 ， 如 
果 将 收入 划分 为 多 个 区 间 ， 那 就 相当 于 多 元 分 类 。 针 
对 多 元 分 类 ， 上 文中 给 出 的 方法 是 分 别 对 每 一 种 类 别 
找 出 一 个 模型 ， 该 模型 只 管 “是 不 是 符合 某 一 类 ， 而 
不 管 其 他 还 可 能 有 几 类 ”。 对 于 一 个 8X 8=64 的 手写 
字形 图 片 ， 每 个 样本 图 片 相 当 于 x 志 { 像 素 1 值 ， 像 素 2 
4, ---- ， 像 素 64 值 }， 阿 拉 伯 数 字 字 形 分 为 10 类 ， 
那 就 用 10 个 独立 的 分 类 器 神经 网 络 分 别 找 出 某 个 样本 
是 不 是 “1”、 是 不 是 “2” 等 ， 也 就 形成 了 图 12-33 
中 所 示 的 网 络 了 。 人 们 将 这 种 分 类 神经 网 络 称 为 感知 
器 (Perceptron) 或 者 分 类 器 (Classifier) 2 
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如 果 单 独 看 上 述 10 个 分 类 器 中 的 每 一 个 ， 则 各 有 
各 自 的 分 类 曲线 ， 可 以 看 出 ， 每 个 分 类 器 的 分 类 曲线 
实际 上 全 都 是 直线 〈 在 每 一 个 维度 上 是 直线 ) ， 但 是 
每 个 分 类 器 对 应 的 直线 的 斜率 、 偏 置 值 都 不 一 样 。 如 
果 是 更 复杂 的 曲线 ， 就 会 在 神经 元 下 游 看 到 有 某 种 激 
励 函 数 去 尝试 引入 非 线性 因素 从 而 将 直线 变 弯 ， 不 过 
本 例 中 并 没有 。 

然而 ， 事 情 还 没完 。 


12.4 ”深度 神经 网 络 : ПИРА 


仔细 端详 一 下 图 12-24， 会 发 现 它 针对 每 个 曲线 
都 用 了 一 套 独立 的 神经 网 络 来 运算 。 由 于 每 条 曲线 会 
由 多 个 小 零件 〈 被 折 弯 的 小 线段 ) 组 成 ， 那 么 多 条 曲 
线 之 间 就 难免 会 用 到 同样 的 小 零件 ， 这 就 像 玩 乐高 玩 
具 ， 同 一 个 零件 可 以 搭建 出 各 种 上 层 结构 。 那 么 ， 能 
否 把 一 些 零件 复制 多 份 共享 给 下 游 需 要 用 到 的 神经 元 
呢 ? 也 就 是 说 ， 把 上 一 层 做 好 的 小 零件 ， 再 次 用 某 种 
激励 函数 做 折 弯 处 理 ， 这 样 就 可 以 折 上 折 ， 而 不 需要 从 
头 用 大 量 直 线 来 党 加 ， 也 就 是 可 以 极 大 降低 最 左 侧 的 神 
经 元 数量 。 

如 图 12-34 所 示 为 0.6X(1/(1+e^-(-90X(1/ 
(1+e^-(-50Xx+1)))+1))-1/(1+e^-(9000 X (1/ 
(ї+е^-(20Хх+1)))+1))+1/(1+е^—(60 X (1/(1+е^- 
(20Xx+1l)))+1))) 这 个 函数 的 曲线 ， 该 函数 就 是 利用 
Sigmoid 函 数 来 嵌 套 登 加 。 可 以 看 到 曲线 变 得 更 如 娜 
多 姿 了 。 所 以 ， 将 多 个 做 好 的 小 零件 继续 受 加 ， 就 可 


以 形成 更 加 丰富 多 彩 的 世界 。 

如 图 12-35 所 示 ， 如 果 将 多 层 神 经 元 向 纵深 方向 
进行 级 联 ， 就 可 以 形成 深度 神经 网 络 (Deep Neural 
Network, DNN) ， 或 者 说 多 层 分 类 器 CMultilayer 
Perceptron) 。 其 目的 就 是 让 上 一 层 制 作 好 的 零件 
不 要 白费 ， 全 部 输送 给 下 一 层 使 有 用， 当然 ， 下 一 层 
用 不 用 还 不 一 定 。 其 实 这 个 思路 就 是 图 12-22 中 右 侧 
给 出 的 思路 ， 当 时 已 经 有 了 这 个 思维 火花 了 。 深 度 
神经 网 络 中 有 多 层 神 经 元 ， 与 输入 信号 直接 相连 的 
称 为 输入 层 ， 中 间 的 各 层 用 于 对 信号 进行 调制 以 及 
县 加 排列 组 合 的 神经 元 层 称 为 隐藏 层 ， 最 终 形成 某 
种 结论 (比如 分 类 等 ) 的 神经 元 层 被 称 为 输出 层 。 
这 样 的 话 ， 改 变 上 游 的 某 个 权重 系数 ， 对 下 游 的 影 
响 可 能 会 被 放大 很 大 的 倍数 ， 颇 有 四 两 拨 千 斤 之 功 
效 。 当 然 也 有 些 位 置 的 权重 对 下 游 曲 线 影响 可 能 根 
本 就 可 忽略 不 计 。 

如 果 将 深度 神经 网 络 用 于 上 文中 介绍 的 手写 阿 
拉 伯 数字 的 图 像 识 别 过 程 ， 那 么 场景 似乎 应 该 是 如 图 
12-36 所 示 的 样子 。 

然而 ， 事 实 上 却 是 类 似 图 12-36 的 样子 。 图 12-36 
中 给 出 的 是 最 优 的 标准 答案 ， 然 而 却 不 一 定 是 唯一 的 
正确 答案 。 由 于 神经 网 络 在 被 训练 初始 时 的 权重 参数 
是 完全 随机 选择 的 ， 然 后 依靠 不 断 试 错 逐 步调 整 ， 那 
么 就 完全 有 可 能 被 调整 成 如 图 12-37 所 示 的 激活 路 径 
了 ， 殊 途 同 归 。 如 同人 类 大 脑 ， 由 于 每 个 人 的 神经 元 
连接 方式 不 同 ， 接 触 的 环境 和 教育 不 同 ， 其 神经 元 之 
间 的 权重 数值 和 激活 通路 的 位 置 也 都 不 同 ， 但 是 会 不 
会 有 人 的 神经 元 被 规整 的 如 图 12-36 那 样 高 效率 ， 就 


ШШ 3*(1/(1 *e^-(-90*(1/(1*e^-(-50*x«1))) +1))-1/(1+е^-(9000*(1/(1 +е^-(20*х+1)))+1))+1/(1+е^-(60*(1/(1+е^-(20*х+1)))+1))) 
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图 12-34 经 过 Sigmoid 多 次 调制 整形 之 后 的 曲线 
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不 得 而 知 了 ， 大 脑 是 否 有 某 种 机 制 将 凌乱 的 激活 通路 
后 台 重 新 进行 规整 ， 更 不 得 而 知 。 

图 12-37 凌 乱 的 神经 激活 通路 排 布 的 另外 一 个 原 
因 是 ， 随 着 待 识别 信号 的 复杂 度 提 升 、 类 别提 升 ， 
类 别 之 间 的 可 区 分 度 越 来 越 小 ， 同 一 个 类 别 内 部 不 同 
样本 的 差异 性 也 越 来 越 大 ， 阿 拉 伯 数 字 的 写法 多 种 多 
样 ， 所 以 神经 网 络 在 被 训练 的 时 候 就 一 定 会 顾 此 失 
彼 ， 最 终 取 得 一 个 平均 值 ， 最 终 就 会 体现 为 结果 的 非 
线性 。 也 就 是 说 ， 如 果 所 有 手写 字形 都 是 相同 的 ， 每 
个 像素 位 置 都 是 固定 的 ， 那 么 最 终 用 一 条 直线 就 可 以 
划分 该 字形 与 其 他 字形 ，7 值 落 入 直线 上 方 代表 匹配 
本 字形 ， 落 入 下 方 则 表示 不 是 本 字形 ， 而 由 于 多 种 不 
同 写法 最 终 导致 顾此失彼 ， 有 时 候 落 入 标准 答案 直线 
下 方 也 属于 本 字形 ， 最 终 导致 分 类 曲线 并 非 直线 ， 可 
能 是 错综复杂 的 曲线 ， 那 么 就 需要 多 层 神 经 元 对 直线 
的 多 次 扭曲 处 理 ， 或 者 说 多 层 神经 元 对 输入 值 的 各 种 
程度 的 调制 ， 最 终 导致 比较 乱 的 神经 激活 通路 。 

如 图 12-38 所 示 为 某 28 X28=784 像 素 手写 阿拉 伯 
字形 识别 网 络 训练 后 第 二 层 神经 元 〈 共 16 个 ， 每 个 神 
经 元 有 784 个 输入 权重 ) 前 端的 权重 分 配 示意 图 。 如 


图 12-38 中 间 所 示 为 16 个 神经 元 的 权重 图 ， 每 个 权重 
图 中 包含 784 个 权重 ， 将 其 按照 28 X28 二 维 排列 ， 蓝 
色 表 示 权 重 较 高 ， 越 蓝 越 高 ， 红 色 表 示 权 重 较 低 ， 越 
红 越 低 。 可 以 想象 的 是 ， 如 果 该 神经 网 络 经 过 训练 后 
碰巧 得 到 了 标准 答案 ， 那 么 其 权重 分 配 图 中 的 蓝 色 点 
一 定 也 会 组 成 对 应 字形 的 图 案 ， 但 是 根据 图 中 结果 来 
看 ， 实 际 中 的 权重 位 置 都 是 随机 的 。 不 过 对 于 如 图 
12-33 所 示 的 单 层 神经 网 络 ， 其 对 应 的 权重 如 图 则 一 
定 是 可 以 看 出 其 中 含有 对 应 字形 形状 的 ， 如 图 12-38 
最 右 侧 所 示 。 

如 图 12-39 所 示 为 某 单 层 感知 器 被 训练 感知 一 些 
更 复杂 图 片 中 物体 后 产生 的 权重 图 ， 从 其 中 可 以 模糊 
地 分 辨 出 不 同 物体 的 大 约 轮廓 ， 由 于 大 量 不 同样 本 的 
图 片 登 加 在 一 起 之 后 ， 已 经 非常 难以 分 辨 ， 但 是 仍 有 
一 些 规律 ， 比 如 飞机 、 轮 船 等 对 应 的 权重 图 内 含有 大 
量 蓝 色 像素 ， 这 表明 用 于 训练 样本 图 片 中 也 含有 大 量 
蓝 色 像素 ， 如 图 12-39 右 侧 所 示 。 同 理 ， 鸟 类 权重 图 
中 则 含有 大 量 绿色 像素 。 

对 于 多 层 神经 网 络 ， 依 然 可 以 从 第 二 层 神 经 元 的 
权重 图 中 看 出 一 些 端倪 。 如 图 12-40 所 示 为 某 个 第 二 
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图 12-37 ”实际 中 的 图 像 识别 神经 网 络 ( 粗 神经 表示 信号 与 权重 的 乘积 较 高 ， 被 激活 ) 
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层 有 10 个 神经 元 的 多 层 神 经 网 络 训练 出 来 的 第 二 层 
权重 图 ， 其 与 图 12-38 中 的 权重 图 有 些许 不 同 ， 因 为 
后 者 在 第 二 层 放 置 了 16 个 神经 元 。 可 以 看 到 ， 当 输 
入 不 同 的 字形 时 ， 每 个 神经 元 的 激活 程度 不 同 ， 比 
如 字形 “0” 中 间 是 空 的 四 周 有 一 圈 像 素 围 绕 ， 那 么 
中 空 形 的 权重 图 对 应 的 神经 元 激活 值 就 比较 高 ， 中 
间 亮 的 权重 图 对 应 的 神经 元 激活 值 甚至 为 负 值 。 其 
他 字形 也 是 类 似 情况 ， 经 过 深层 神经 元 的 一 系列 排 
列 组 合 连 线 之 后 ， 到 达 最 终 的 输出 层 便 会 分 辨 出 不 
同 字 形 所 述 的 类 别 。 

如 果 有 两 个 图 片 中 的 形状 属于 同一 类 物品 ， 但 
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是 由 于 形状 不 太 相 同 ， 比 如 哈士奇 和 藏獒 都 属于 
犬 ， 但 是 后 者 明显 像 狮 子 ， 但 是 ， 只 要 你 在 训练 的 
BHEE ЕН ЕН, ХЕ А! 这 不 是 犬 类 
Я, Ж Щй! 我 说 是 就 是 ! 好 好 ， 改 参数 ， 最 后 一 
层 权 重 指向 犬 类 神经 元 节点 ! 神经 网 络 就 是 在 大 量 
的 上 面 这 种 扯 来 扯 去 的 流程 中 被 迫 调 节 权 重 的 。 如 
图 12-41 所 示 ，“2” 这 个 字形 有 多 种 不 同 写法 ， 在 
训练 的 时 候 强行 让 神经 网 络 认为 这 些 写法 都 属于 
“2”， 就 会 在 正确 的 路 径 上 打通 神经 元 的 激活 通 
Pe. ЖЖ. 

在 训练 神经 网 络 时 ， 使 用 的 方法 和 前 文中 介绍 


图 12-40 ”不同 权 重 图 响应 不 同类 别 字形 时 的 激活 值 状态 


12-41 ”像素 分 布 有 较 大 区 别 的 两 个 图 形 属于 同一 类 时 的 神经 元 通路 示意 图 
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此 时 读者 可 能 会 有 些 迷 总 ， 如 果 属 于 同一 类 的 只 是 写法 不 同 的 字形 登 加 在 一 起 的 话 ， 会 形成 比较 粗 胖 的 
图 形 ， 原 有 轮廓 变 得 模糊 ， 就 像 图 12-32 最 右 侧 那个 >-， 这 还 是 只 县 加 了 两 个 2。 使 用 大 量 不 同 写法 的 同类 字 
形 训练 神经 网 络 之 后 ， 如 果 某 个 未 知 字形 的 轮 廉 能 够 谈 入 到 训练 时 使 用 的 登 加 字形 中 ， 那 么 就 可 以 判断 该 
未 知 字形 属于 该 类 别 。 但 是 很 显然 ， 其 神经 元 激活 值 的 绝对 值 一 定 是 下 降 的 ， 因 为 该 未 知 字形 只 命中 了 司 加 
字形 中 的 一 部 分 ， 这 样 难道 不 会 影响 识别 准确 率 么 ? 不 会 ， 因 为 如 果 有 某 个 其 他 类 别 的 图 形 部 分 或 者 全 部 地 
命中 在 这 个 登 加 图 形 区 内 部 的 话 ， 那 它 很 大 概率 不 会 占据 该 登 加 区 域 图 形 高 比例 的 面积 ， 因 为 毕竟 不 是 同一 
类 别 字形 ， 那 么 该 登 加 区 域 对 应 的 神经 元 的 总 激活 值 也 就 不 会 很 高 。 但 是 不 排除 有 些 不 同类 字形 的 一 部 分 会 
复 用 ， 比 如 字形 “6” 和 “8” 的 大 部 分 曲线 比较 相似 ，“8” 在 右上 角 位 置 相 比 “6” 多 了 一 条 曲线 。 此 时 如 
果 输 入 的 字形 为 “8”， 那 么 就 会 导致 “6” 对 应 的 神经 元 激活 度 达 到 最 大 值 ， 但 是 此 时 并 不 一 定 会 被 识别 
为 “6”， 因 为 “8” 对 应 的 神经 元 通路 上 的 激活 值 很 大 概率 上 会 比 “6” 的 更 高 ， 所 以 其 高 概率 会 被 判断 为 
“8”。 当 然 这 只 是 一 个 例子 ， 不 排除 有 某 些 字形 复 用 程度 较 高 ， 最 后 导致 多 个 类 别 的 神经 元 激活 值 非常 接 
近 ， 比 如 如 图 12-42 所 示 。 此 时 表明 这 些 字形 太 过 相像 ， 本 身 已 经 不 好 办 识 ， 需要 另辟蹊径 ， 采 用 能 够 抓 取 局 
部 特征 的 卷 积 神经 网 络 ( 见 下 文 ) 来 识别 。 
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图 12-42 


- 些 误 判 的 例子 


过 的 梯度 下 降 法 相同 。 如 图 12-43 所 示 ， 开 始 采用 的 
随机 参数 一 定 会 导致 比较 高 的 误差 ， 比 如 图 中 左 侧 所 
示 ， 当 输入 信号 为 “2” 字形 时 ， 本 应 该 数字 2 对 应 的 
神经 元 拥有 较 高 的 激活 值 ， 其 他 神经 元 激活 值 很 低 ， 
实际 结果 则 是 完全 随机 的 ， 于 是 ， 就 需要 判断 出 具体 
调节 哪些 权重 参数 ， 调 高 还 是 调 低 ， 以 及 调整 力度 。 
下 面 分 别 思 考 这 三 个 问题 。 

调整 哪些 权重 参数 ? 当然 是 调整 那些 应 该 被 激活 
而 没 被 激活 的 神经 元 前 端的 权重 参数 ， 比 如 图 中 的 字 
形 2 对 应 的 神经 元 ， 以 及 调节 那些 不 该 被 激活 但 是 却 
被 误 激活 的 神经 元 前 端的 参数 ， 比 如 图 中 7 和 9 字形 对 
应 的 神经 元 。 而 对 于 那些 不 该 激活 但 是 被 激活 ， 同 时 
激活 度 非常 小 可 以 忽略 的 神经 元 ， 我 们 或 许 根本 就 不 
要 去 调节 它 对 应 的 参数 了 。 

调 高 还 是 调 低 ? 对 于 图 中 7 和 9 字形 对 应 的 神经 
元 前 端的 权重 参数 ， 需 要 将 它们 调 低 : 而 对 于 2 字形 
对 应 的 神经 元 ， 激 活 度 不 够 ， 所 以 需要 将 该 神经 元 前 
端的 权重 参数 往 高 了 调 ， 从 而 让 输入 信和 号 值 与 权重 相 
乘 后 的 值 更 大 。 值 得 一 提 的 是 ， 由 于 神经 元 的 输入 信 
号 有 可 能 是 小 于 0 的 负 值 ， 如 果 同 时 该 输入 信号 对 应 
的 权重 恰好 是 正 值 ， 那 么 若 想 让 该 神经 元 变 得 激活 度 
更 高 ， 那 么 就 需要 让 权重 值 变 得 更 小 才 可 以 ， 此 时 乘 
积 才 会 更 大 。 所 以 为 了 让 某 个 神经 元 激活 值 增 加 或 者 


降低 ， 其 前 端 所 有 输入 信号 对 应 的 权重 值 不 一 定 需要 
调 高 或 者 调 低 ， 都 有 可 能 。 这 个 过 程 如 图 12-44 左 侧 
所 示 。 

调整 力度 ? 在 介绍 梯度 下 降 方法 时 曾经 提 到 过 
如 果 当 前 的 损失 函数 曲线 比较 陡峭 ， 那 么 就 应 该 调整 
力度 大 一 些 让 误差 迅速 大 幅度 下 降 。 至 于 如 何 确定 每 
个 参数 的 调整 力度 ， 首 先 需 要 求 出 误差 值 对 每 个 参数 
导数 ， 也 就 是 求 得 调整 每 个 参数 各 自 对 误差 下 降幅 度 
的 影响 度 。 这 就 像 调 节 机 械 钟 表 一 样 ， 旋 钮 转 一 圈 ， 
分 针 也 转 一 圈 ， 但 是 时 针 才 转 一 格 〈 一 小 时 ) ， 此 
时 就 说 时 针 〈 误 差 变 化 ) 对 该 旋钮 参数) 的 受 影响 
率 是 1:24 (导数 ) ; 而 调节 另 一 个 旋钮 一 圈 可 能 直接 
会 将 时 针 旋 转 24 小 时 ， 那 么 时 针对 该 旋钮 的 导数 则 是 
24:24=1:1=1， 当 然 是 后 面 这 个 旋钮 的 影响 度 比较 高 。 
那么 每 个 参数 的 调整 力度 自然 就 是 : 学 习 率 X 误 差 曲 
线 对 该 参数 的 导数 。 

不 仅 最 后 一 层 神经 元 前 端的 权重 需要 调节 ， 神 经 
网 络 中 所 有 层 的 权重 参数 都 需要 按照 同样 方法 调节 ， 
形成 联动 ， 如 果 只 调节 一 层 ， 相 当 于 头痛 医 头 脚 痛 医 
脚 ， 按 下 葫芦 浮 起 了 飘 。 

当然 ， 在 测试 某 个 训练 后 的 模型 时 ， 需 要 采用 
大 量 测 试 样本 进行 测试 ， 对 于 每 个 测试 样本 的 测试 结 
果 ， 都 需要 计算 出 每 个 参数 的 调整 力度 ， 然 后 将 所 有 


大 话 计算 机 


计算 机 系统 底 


测试 样本 求 出 的 每 个 调整 力度 相 加 求 平均 ， 得 出 本 次 
ЕВА BKE, НИТ Г А. 
这 个 过 程 如 图 12-44 右 侧 所 示 。 

上 述 整 个 调节 过 程 被 称 为 


。 而 所 谓 深度 学 习 ， 就 是 利 
用 深度 神经 网 络 进行 机 器 学 习 的 过 程 。 深 度 神经 


网 络 又 有 一 些 不 同 的 小 类 别 ， 比 如 循环 神经 网 络 
(Recurrent Neural NetWork, RNN) 以 及 卷 积 神经 网 


络 (Convolutional Neural NetWork, CNN) 等 


在 上 文中 给 出 的 识别 手写 阿拉 伯 数 字 的 例子 中 ， 
对 应 的 待 识别 字形 符号 被 摆 放 在 方形 的 图 片 的 中 央 位 
置 。 然 而 如 果 利 用 神经 网 络 只 能 识别 这 种 被 加 工 好 的 
图 像 的 话 ， 那 是 不 是 局 限 性 很 大 ? 没 错 ， 神 经 网 络 
只 能 识别 这 种 被 加 工 好 的 图 形 ， 因 为 它 被 训练 的 时 候 
采用 的 素材 全 部 都 是 这 种 方 方 正 正 居中 的 图 形 。 
ll 否 给 一 个 神经 网 络 直 接 输 入 大 量 的 日 常生 活 中 的 照 
片 ， 照 片 中 包含 各 种 不 同 物体 ， 然 后 训练 神经 网 络 ， 最 
дей 神经 网 络 自动 识别 出 未 知 照 片 中 的 物体 ? 
要 实现 这 个 效果 ， 我 们 不 妨 先 看 看 人 脑 是 怎么 


那么 
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处 理 的 。 人 脑 可 能 天 生 


:就 具备 一 种 自动 抠 图 功能 ， 比 


如 一 张 图 片 中 有 多 个 物体 ， 人 脑 似乎 有 某 种 机 制 能 够 


断 的 视觉 输入 和 训练 ， 最 终 学 
类 。 比 如 一 只 鸟 落 在 树枝 上 
分 辨 出 鸟 身后 
同 的 两 种 物体 。 


人 脑 似乎 一 


分 类 识别 。 
种 类 物体 的 图 片 时 ， 先 用 某 种 方式 把 医 
体 抠 出 来 ， 然 后 把 这 些 抠 出 来 的 物体 医 
E 如 某 个 神经 网 络 训练 的 时 候 使 用 的 是 
+， 那么 就 需要 将 抠 出 来 的 图 片 转换 到 
ж. 如 果 你 已 经 深入 阅 第 8 章 ， 你 
对 图 片 进 行 扩大 或 者 缩小 的 雪 
还 有 更 多 步骤 ， 就 不 多 介绍 了 。 
ынанан 分 类 识别 ， 于 是 
出访 物体 的 种 类 了 ， 如 图 2_.45 所 示 。 
如 果 处 理 速度 足够 快 的 ， 那 就 可 以 
的 内 容 做 识别 ， 只 要 以 
处 理 ， 判 断 出 某 个 物体 类 别 后 ， 将 类 别 
频 里 对 应 的 物体 上 ， 这 样 直接 就 可 以 让 


区 分 每 个 物体 ， 然 后 再 去 学 习 该 物体 的 特征 ， 
习 了 大 量 物体 的 属性 分 


的 树林 和 鸟 并 不 是 一 体 的 ， 


如 果 需 要 让 机 器 来 识别 一 张 内 含 


基本 原理 了 。 
ea 


经 过 不 


开始 就 能 够 
而 是 完全 不 


那么 ， 我 们 训练 一 个 用 于 图 像 识 别 的 神经 网 络 ， 
也 必须 先 用 抠 好 的 图 来 训练 ， 让 它 能 对 这 些 图 片 进行 


多 个 不 同 
片 中 的 疑似 物 
片 做 预 处 理 ， 

I 是 32X32 的 图 
32 像 素 X32 像 
应 该 了 解 具体 
当然 预 处 理 
的 图 片 会 被 
可 以 在 图 片 中 标 


直接 对 视频 中 


定 的 频率 从 视频 中 截图 然后 


标签 注入 到 视 
标签 跟随 视频 
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图 12-45 ”利用 深度 神经 网 络 识别 含有 多 个 物体 的 图 片 中 的 物体 


中 的 物体 的 移动 而 移动 ， 获 得 更 好 的 感 观 体验 。 

那么 问题 来 了 ， 怎 么 抠 图 ? 或 者 说 怎么 判断 哪个 
区 域 属于 某 个 物体 ? 有 一 个 最 笨 的 办 法 是 ， 假 设 某 个 
神经 网 络 接受 32 像 素 X32 像 素 图 片 的 输入 ， 那 么 就 以 
32 像 素 X32 像 素 作为 一 个 窗口 ， 从 待 识别 图 片 的 第 一 
个 像素 开始 顺序 地 扫描 ， 步 长 1 个 像素 ， 这 样 就 相当 
于 把 该 图 片 切 分 成 大 量 32X32 的 小 切片 ， 然 后 将 这 些 
切片 分 别 输入 到 神经 网 络 中 进行 识别 分 类 即 可 ， 如 图 
12-46 所 示 。 

用 这 种 逐 行 扫描 的 方法 不 仅 很 笨 ， 运 算 量 很 大 ， 
而 且 也 很 不 准 。 如 图 12-47 中 间 及 右 侧 所 示 的 场景 ， 
一 旦 待 识别 图 片 中 的 物体 的 尺寸 超过 了 32X32 或 者 远 
小 于 32X32， 或 者 对 应 的 物体 旋转 或 者 扭曲 了 一 定 的 
角度 ， 而 这 些 不 同 大 小 、 角 度 的 图 形 当初 并 没有 被 用 
于 训练 该 神经 网 络 ， 那 么 该 神经 网 络 就 无 法 识别 出 这 
些 图 形 。 

要 想 识别 扭曲 缩放 旋转 的 图 形 ， 那 么 当初 在 训练 
该 神经 网 络 时 ， 就 需要 用 大 量 的 经 过 缩放 扭曲 旋转 的 
图 形 来 训练 神经 网 络 ， 而 图 片 大 小 和 角度 是 无 限 的 
不 可 能 所 有 组 合 全 都 覆盖 。 比 如 图 12-48 所 示 的 手写 
识别 神经 网 络 显然 是 没有 用 移 位 、 扭 曲 、 旋 转 的 图 形 
来 训练 ， 所 以 只 要 没有 把 图 形 放 到 采样 窗口 正中 央 ， 
会 识别 错误 。 

如 果 能 够 设计 某 些 能 够 智能 抠 图 的 方法 ， 将 物体 
截图 出 来 ， 然 后 对 抠 出 的 部 分 做 对 应 的 缩放 ， 让 它 的 


分 辩 率 与 神经 网 络 的 可 接受 分 辩 率 匹配 起 来 ， 然 后 进 
行 识别 ， 这 样 更 加 合理 。 实 际 上 也 的 确 有 不 少 能 够 智 
能 检测 图 片 中 物体 的 技术 ， 这 些 技术 都 属于 对 象 检测 
(Object Detection) 技术 。 由 于 作者 能 力 所 限 就 无 法 
深入 介绍 了 。 


12.6 ештен: 图 像 识别 利器 


一 张 32X32 分 辩 率 的 图 片 ， 按 照 目前 主流 显示 器 
的 像素 面积 ， 也 就 占用 指甲 盖 大 小 的 面积 ， 一 共 1024 
个 像素 。 但 是 ， 如 果 某 个 神经 网 络 需要 识别 的 类 别 很 
多 时 ， 就 需要 庞大 的 神经 元 数量 ， 只 有 这 样 才能 有 
足够 的 区 分 度 ， 也 就 是 让 不 同类 别 被 输入 时 ， 不 同 的 
神经 元 组 合 被 激活 。 假 设 某 个 能 够 识别 32X32 分 辩 率 
图 形 的 神经 网 络 的 输入 层 神经 元 有 32X32=1024 个 ， 
由 于 每 个 像素 信号 与 每 个 神经 元 都 有 连接 ， 那 么 单 这 
一 层 对 应 的 权重 参数 就 有 1024X 1024=1 048 576 个 ， 
更 不 用 说 可 能 多 达 几 十 甚至 上 百 层 的 隐藏 层 中 的 参数 
了 ， 参 数 过 多 会 导致 过 拟 合 。 所 以 ， 对 于 图 像 识别 、 
语音 识别 〈 将 语音 采样 量化 后 的 一 堆 样 点 在 整体 上 与 
像素 点 的 识别 方法 类 似 ) 这 种 输入 信和 号 维度 很 高 的 场 
景 ， 就 需要 用 某 种 方法 来 降低 输入 信和 号 的 维度 ， 同 时 
还 能 最 大 程度 地 保留 输入 信号 的 特征 。 

另外 ， 由 于 现实 照片 中 的 物体 ， 即 便 是 同一 类 ， 其 
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12-46 ”利用 小 窗口 来 搜索 整个 图 片 中 是 否 有 可 识别 的 对 象 
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图 12-47 


不 同比 例 缩放 以 及 扭曲 旋转 的 图 形 


图 12-48 ”没有 经 过 扭曲 、 移 位 、 旋 转 、 缩 放 训练 的 神经 网 络 的 识别 结果 


具体 差异 也 非常 大 ， 对 于 不 同 角度 扭曲 旋转 的 物体 ， 需 
要 采用 大 量 样本 来 训练 。 针 对 同样 角度 的 同类 别 物体 ， 
其 差异 并 不 是 太 大 ， 此 时 如 果 能 够 用 某 种 方法 提取 这 些 
图 片 中 更 加 共性 的 特征 的 话 ， 就 更 有 利于 识别 更 广 范围 
的 未 知 同类 别 物体 ， 提 升 识别 的 泛 化 能 力 。 

思考 一 下 现实 中 ， 高 度 近视 的 朋友 有 福 了 ， 因 
为 你 可 以 体验 不 戴 眼镜 也 一 样 能 分 辨 出 物体 大 致 是 个 
什么 的 感觉 。 是 的 ， 如 果 图 形 的 分 辩 率 降低 ， 也 就 是 
物体 聚焦 在 视网膜 上 一 片 模糊 ， 只 有 个 大 致 轮廓 ， 你 
很 高 概率 也 是 可 以 判断 出 物体 类 别 的 。 那 就 好 办 了 ， 
是 不 是 只 要 降低 图 形 的 分 辨 率 就 可 以 了 。 在 一 定 程度 
上 ， 降 低 分 辩 率 不 会 影响 识别 的 准确 度 ， 比 如 对 于 汉 
字 “ 一 ”和 阿拉 伯 数 字 “1”， 只 要 分 辩 率 不 要 降低 
到 1X1， 最 终 怎么 也 分 得 清 ， 比 如 就 算 降 低 到 2X2 分 
辨 率 ， 会 是 如 图 12-49 左 侧 所 示 的 场景 。 

但 是 图 12-49 右 侧 所 示 的 场景 就 没有 这 么 幸运 
了 ， 如 果 细 读 过 第 8 章 ， 应 该 很 清楚 降低 图 形 分 辩 
率 是 怎么 操作 的 ， 最 简单 的 办 法 就 是 插值 求 平均 ， 
比如 图 中 的 16X16 图 形 ， 将 4 个 相 邻 的 像素 值 之 和 


求 平均 ， 得 出 1 个 像素 ， 这 样 分 辨 率直 接 降低 4 倍 ， 
成 为 4X4 图 片 ， 这 个 过 程 叫 作 Down Sampling 或 者 
Subsampling。 可 以 看 到 ， 不 管 是 字形 “0” 还 是 
“1”， 最 后 都 似乎 变 成 了 “1”， 把 这 个 降 质 的 图 片 
输送 到 神经 网 络 ， 就 会 把 “0” 也 误 判 成 1， 或 者 把 
“1” 误 判 成 “0”。 同 理 ， 高 度 近视 的 朋友 可 以 摘 下 
眼镜 ， 然 后 将 这 个 图 拉 远 ， 或 许 最 终 你 会 看 到 这 两 个 
图 形 都 是 一 根 竖 线 。 

这 说 明 一 个 问题 ， 降 低 分 辨 率 会 让 图 形 的 关键 
信息 损失 掉 ， 感 性 地 想 一 下 ，0 和 1， 一 个 空心 一 个 实 
心 ， 而 Down Sampling 会 导致 之 前 空心 的 地 方 也 成 了 
实心 ， 这 个 用 于 区 分 0 和 1 的 关键 特征 就 被 抹 掉 了 。 当 
然 ，0 和 1 的 例子 只 是 最 简单 的 尚 可 用 人 脑 理解 的 ， 一 
些 复杂 图 形 的 细小 特征 ， 很 难 用 语言 描述 ， 丢 失 了 这 
些 信息 就 会 极 大 影响 辨识 准确 率 。 

如 何 既 降低 分 辨 率 又 能 区 分 出 不 同 的 输入 信息 ? 
其 实 这 个 问题 对 于 那些 计算 机 科学 家 来 讲 真是 太 简单 
了 ， 两 个 字 : 变换 。 变 换 的 学 问 挺 大 ， 比 如 第 1 章 中 
介绍 的 傅 里 叶 变 换 ， 将 一 种 信息 变换 成 另 一 种 信息 ， 
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图 12-49 通过 降低 分 辩 率 的 方式 会 损失 关键 的 特征 信息 


或 许可 以 找到 解决 问题 的 办 法 。 这 种 变换 的 一 个 实际 
中 的 例子 就 是 对 密码 的 管理 ， 比 如 设置 或 者 修改 操作 
系统 登录 密码 时 ，OS 会 对 你 输入 的 明文 密码 做 Hash 
计算 ， 然 后 将 计算 出 的 Hash 值 存放 在 硬盘 上 ， 当 再 次 
输入 密码 尝试 登录 时 ， 系 统 会 将 输入 的 密码 做 Hash 运 
算 并 与 硬盘 上 保存 的 Hash 值 比 对 ， 相 同 则 认证 通过 。 
由 于 黑客 无 法 通过 Hash 值 反 算出 其 对 应 的 明文 ， 所 以 
即便 黑客 获取 到 了 Hash 值 也 无 法 知道 明文 密码 是 什 
么 。 所 以 ，Hash 值 就 是 一 种 对 原文 数据 特征 的 描述 ， 
是 一 种 抽样 变换 ， 而 且 是 不 可 道 的 。 

Hash 值 的 长 度 可 以 远 小 于 明文 数据 的 长 度 。 既 然 
如 此 ， 能 否 使 用 Hash 运 算 来 处 理 一 下 原始 图 片 ， 将 所 
有 用 于 训练 的 原始 图 片 全 部 转换 成 Hash 值 ， 然 后 让 神 
经 网 络 针对 这 些 Hash 值 做 模式 识别 然后 将 这 些 模式 记 
忆 在 所 有 神经 元 的 参数 里 ? 这 样 ， 对 于 未 知 图 片 的 识 
别 ， 就 可 以 先 将 其 进行 Hash 运 算 然后 将 Hash 值 输入 到 
神经 网 络 进行 识别 。 

这 样 做 是 不 行 的 ， 因 为 Hash 有 个 毛病 ， 只 要 原文 
的 内 容 稍微 变化 一 点 点 儿 ， 哪 怕 只 有 1 位 ， 算 出 来 的 
Hash 值 就 会 千差万别 ， 也 正 是 因为 Hash 的 这 种 完全 无 
规律 的 性 质 才 会 被 用 于 密码 验证 ， 否 则 黑客 就 很 容易 
根据 规律 猜 出 密码 原文 了 。 显 然 ， 待 识别 的 图 片 与 训 
练 时 所 用 的 图 片 一 定 是 有 差别 的 ， 所 以 其 Hash 值 会 完 
全 不 同 ， 最 终 无 法 识别 。 

为 此 ， 需 要 寻找 一 种 能 够 更 加 模糊 化 的 、 泛 化 的 
特征 提取 手段 ， 也 就 是 说 ， 原 文中 的 信息 稍 有 变化 ， 
不 会 导致 特征 信息 太 大 的 变化 的 特征 提取 手段 ， 抑 或 
者 多 方位 多 角度 地 去 提取 特征 ， 就 算 未 知 待 识别 信息 
与 记忆 中 的 模式 在 某 个 角度 上 差别 较 大 ， 但 是 总 体 差 
别 不 大 ， 也 可 以 识别 。 想 到 这 里 读者 可 以 冥 思 一 下 ， 
如 果 换 了 你 ， 怎 么 来 提取 图 片 中 的 特征 信息 ? 

如 图 12-50 所 示 是 一 种 目前 常用 的 图 片 特征 提取 
方式 。 如 图 左上 角 所 示 是 一 个 8X 8 分 辩 率 的 “0” 这 
个 字形 的 图 片 ， 从 这 张 8X 8 的 图 片 中 ， 截 取出 6X 6 的 
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多 个 小 图 片 ， 从 左上 角 第 1 个 像素 开始 截取 6X 6 的 图 
片 ， 然 后 右 移 1 个 像素 继续 截图 ， 这 就 相当 于 用 一 个 
6X6 像 素 的 小 窗口 在 8X 8 的 图 片上 滑动 ， 当 触 碰 到 右 
边缘 时 就 下 移 一 行 继续 从 左 向 右 滑动 截图 ， 这 样 一 共 
可 以 截取 出 9 张 局 部 图 片 。 潜 意识 里 你 会 感觉 到 ， 这 
些 不 同位 置 的 局 部 图 片 其 实 就 是 这 一 整 张 图 片 的 “ 特 
征 ”， 当 然 还 要 把 它 继续 抽象 一 下 ， 否 则 需要 记忆 的 
模式 太 具 体 ， 就 不 高 效 了 。 于 是 在 图 中 间 所 示 ， 将 截 
取 的 每 个 6X6 小 图 片 与 一 个 设计 好 的 6X 6 的 “ 滤 镜 ” 
图 片 进 行 像素 对 像素 的 两 两 相 乘 操 作 。 这 个 滤 镜 图 片 
里 的 像素 值 一 般 没 有 什么 感 观 上 的 意义 ， 当 然 图 中 的 
滤 镜 还 是 可 以 看 出 来 是 两 条 倾斜 的 直线 。 

我 们 采用 的 图 片 比较 特殊 ， 假 设 被 字形 占据 的 像 
素 值 为 1.0， 而 没 被 占据 的 像素 值 为 0.0， 滤 镜 图 片 也 
是 一 样 。 那 么 将 滤 镜 图 片 与 每 个 局 部 截图 相 乘 之 后 ， 
就 会 得 出 图 中 最 底部 所 示 的 6 像素 X 6 像素 阵列 ， 相 乘 
之 后 的 阵列 显然 抽象 程度 更 高 了 。 同 时 ， 除 非 你 知道 
这 个 滤 镜 中 的 像素 值 ， 否 则 根本 无 法 从 结果 反 推 出 原 
来 的 信息 。 如 果 将 相 乘 之 后 的 图 片 再 次 抽象 ， 也 就 是 
将 其 中 所 有 像素 的 值 相 加 ， 将 相 加 之 后 的 结果 值 作为 
一 个 像素 点 的 值 ， 那 么 图 12-45 底 部 的 9 张 图 片 最 终 会 
被 处 理 成 如 图 左下 角 所 示 的 3 像素 X3 像 素 阵 列 ， 如 果 
将 其 展开 ， 就 是 一 个 有 9 个 元 素 的 向 量 。 也 就 是 说 ， 
利用 这 种 方法 ， 我 们 将 一 幅 8X 8 的 图 片 抽象 成 了 一 个 
3X3 的 9 维 向 量 。 

再 下 一 步 要 做 什么 ? 那 当然 是 把 大 量 的 手写 字 
形 图 片 利用 相同 的 处 理 方法 处 理 成 3X3 的 图 片 ， 然 
后 输入 到 深度 神经 网 络 中 进行 训练 。“ 这 哪里 是 0? 
这 什么 都 不 是 ! ”“ 这 就 是 0， 我 说 是 就 是 ! ”“ 好 
吧 ， 改 参数 ! ”， 就 这 样 ， 深 度 神 经 网 络 真 的 神经 
分 分 地 把 这 些 抽象 的 ， 用 人 脑 根 本 看 不 出 来 是 什么 
的 图 片 ， 强 行 记忆 成 某 个 分 类 。 如 果 训 练 某 个 不 识 
字 的 人 来 记忆 这 些 抽象 向 量 ， 他 或 许 也 可 能 记忆 不 
ЖАЛП 
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那么 用 这 个 方法 处 理 一 下 字形 “1” 会 是 什么 
结果 ? 如 图 12-51 所 示 ， 可 以 看 得 出 来 其 图 形 像 字形 
“1”。 实 际 上 ， 如 果 把 滤 镜 本 身 的 尺寸 变 小 ， 处 
理 完 后 的 图 片 还 是 会 显现 出 原始 图 片 的 模糊 的 轮廓 
的 ， 只 不 过 上 面 两 个 例子 比较 极端 。 对 比 一 下 “0” 
和 “1” 处 理 完 后 的 3X3 图 片 ， 显 然 ， 两 者 很 不 同 ， 
再 回头 看 看 图 12-49， 如 果 仅 采 用 Down Sampling 的 方 
式 ， 即 便 是 4X4 的 图 片 ， 已 经 变 得 无 法 分 辨 。 这 就 证 
明了 一 点 ， 利 用 图 12-50 和 图 12-47 中 所 示 的 特征 抓 取 
抽象 方式 ， 可 以 保留 更 多 的 图 形 特征 和 区 分 度 。 

下 面 把 滤 镜 的 大 小 改 为 3X3 对 字形 “0” 进 行 处 
理 然后 感受 一 下 结果 。 如 图 12-52 所 示 ， 同 时 将 滤 镜 
中 的 值 改 成 往 右 上 方 倾斜 ， 得 出 的 结果 ， 只 可 意 会 不 
可 言传 。 

如 图 12-53 所 示 为 使 用 另 一 种 3X3 滤 镜 来 处 理 相 
同 图 片 所 得 出 的 结果 示意 图 。 

你 可 能 会 隐约 地 感觉 出 ， 不 管用 什么 样 的 滤 镜 
来 把 原始 图 像 做 各 种 扭曲 离散 处 理 ， 处 理 完 的 图 像 仍 
然 会 保留 大 致 的 轮廓 ， 如 图 12-54 所 示 。 实 际 的 图 片 
的 像素 几乎 不 可 能 是 非 0 即 1， 除 非 是 连 灰 度 都 没有 


的 纯 黑 白 图 片 。 如 图 12-54 下 方 所 示 ， 可 以 看 得 出 这 
两 个 滤 镜 分 别 在 尝试 检测 图 像 中 的 垂直 边缘 和 水 平 
边缘 。 

如 图 12-55 所 示 ， 同 样 是 一 个 手写 字形 “0”, 但 
是 这 个 字形 比较 胖 ， 用 同样 的 滤 镜 来 处 理 之 后 ， 会 发 
现 结果 与 图 12-50 所 示 比 较 瘦 的 “0” 有 很 大 的 差异 ， 
这 样 是 无 法 用 来 识别 的 。 解 决 的 办 法 也 比较 简单 ， 那 
就 是 用 多 种 不 同 的 滤 镜 去 “端详 ”原始 图 片 。 

这 就 像 如 果 要 考验 一 个 人 ， 不 能 只 把 他 放 到 单 
一 的 某 种 环境 下 来 观察 他 的 反应 和 能 力 ， 而 是 要 把 他 
放 到 不 同 环境 下 相互 作用 ， 看 看 他 的 各 种 反应 如 何 ， 
才能 多 角度 地 描述 这 个 人 的 特性 ; 要 研究 某 个 化 合 
物 ， 就 让 它 与 多 种 其 他 化 合 物 相互 作用 ， 通 过 结果 来 
判断 它 可 能 是 某 一 类 化 合 物 。 同 理 ， 对 于 图 片 ， 也 
需要 与 多 种 不 同 的 滤 镜 相互 作用 〈 相 乘 或 者 其 他 运 
算 ) 来 审视 该 图 片 ， 从 而 抓 取 不 同 风格 的 特征 。 如 果 
可 以 用 多 种 滤 镜 处 理 图 片 ， 然 后 将 处 理 完 的 特征 图 
连接 起 来 ， 比 如 图 12-56 所 示 就 是 采用 6 个 不 同 滤 镜 抓 
取 特 征 ， 然 后 将 特征 图 输送 到 神经 网 络 用 来 训练 和 


识别 。 
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图 12-51 用 滤 镜 与 包含 “1” 字 形 的 原 图 局 部 截图 相 乘 
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图 12-52 ”使 用 3X3 滤 镜 处 理 图 片 (1) 
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图 12-56 中 所 示 的 滤 镜 好 像 完全 看 不 出 什么 规 
律 ， 那 么 请 问 ， 这 些 滤 镜 里 的 像素 值 应 该 怎么 确 
Ж? 难道 是 由 人 脑 来 根据 每 一 幅 图 片 的 特征 设计 出 
Ж? 不 可 能 ， 不 现实 。 海 量 的 图 片 和 图 形 ， 人 脑 就 
算 再 厉害 ， 也 不 可 能 每 张 图 片 都 设计 一 个 小 镜 。 答 
案 你 可 能 已 经 知道 了 ， 靠 机 器 学 习 出 来 ! 也 就 是 
说 ， 滤 镜 中 的 像素 值 一 开始 完全 是 随机 的 ， 通 过 不 
断 穷 举 和 迭代 ， 最 终 训练 出 合适 的 滤 镜 。 好 吧 ， 看 来 
机 器 学 习 还 真 的 蛮 神 奇 。 


JE {КЕЛИШИ ЕКИ ЛАШ ЖТ. ЛУНЫ ЕН 
于 处 理 图 片 的 滤 镜 称 为 核 CKemeD ， 把 核 与 原始 图 片 
之 间 的 相互 作用 关系 算法 称 为 核 函 数 (Kernel Function, 
或 简称 Kernel) ， 或 者 窗 函 数 ， 因 为 滤 镜 就 像 一 扇 小 
窗户 一 样 去 审视 原始 图 片 ， 滤 镜 有 时 候 也 被 人 称 为 滤 
波 器 。 由 于 上 文中 我 们 用 每 个 滤 镜 与 原始 图 片 滑动 
相 乘 然后 结果 再 相 加 ， 这 种 操作 在 数学 上 被 称 为 卷 积 
(Convolution) ， 所 以 上 文中 的 滤 镜 对 应 的 核 函 数 其 实 
就 是 卷 积 函数 ， 于 是 将 这 种 对 原始 图 片 执行 卷 积 操作 的 
核 俗称 为 卷 积 核 ， 也 就 是 拿 着 这 个 核 来 对 原始 数据 做 卷 
积 的 意思 。 可 以 看 到 ， 核 其 实 就 是 一 个 多 维 向 量 ， 一 堆 
数值 ， 至 于 拿 着 这 个 核 去 做 什么 操作 ， 是 核 函 数 来 控制 
的 ， 相 当 于 核 中 的 数值 本 质 上 是 核 函 数 的 参数 。 卷 积 核 
对 局 部 做 完 卷 积 运算 后 需要 向 后 滑动 的 像素 数 ， 被 称 为 
WK (Stride) ， 图 12-52 和 图 12-49 中 场景 的 步 长 为 1。 

举一反三 ， 你 一 定 会 问 ， 有 做 卷 积 的 核 函数 
那 一 定 有 做 其 他 操作 的 核 函 数 ? 当然 ， 比 如 做 傅 里 叶 
级 数 展 开 ， 泰 勒 展开 ， 拉 普 拉 斯 变换 ， 小 波 变换 等 操 
作 ， 可 以 俗称 用 于 这 些 核 函 数 的 核 为 傅 里 叶 核 、 泰 勒 
核 、 拉 普 拉 斯 核 、 小 波 核 。 只 不 过 卷 积 操作 目前 被 大 
量 应 用 于 图 像 语 音 识 别 方面 了 。 写 到 这 冬瓜 哥 竟然 对 
“ 核 ” 这 个 字 的 发 音 和 字形 陌生 了 起 来 ， 难 道 产生 了 
神经 元 响应 过 度 疲劳 ? 

说 到 这 冬瓜 哥 不 禁 一 阵 羞涩 ， 因 为 上 面 这 几 个 
数学 概念 冬瓜 哥 连 皮毛 都 还 没 参透 。 你 应 该 可 以 体会 
到 ， 我 们 不 应 该 局 限 在 图 像 、 语 音 这 些 易 于 理解 的 层 
面 ， 对 于 任何 数据 的 处 理 ， 都 可 以 用 对 应 的 某 种 核 函 
数 来 作用 到 该 信号 上 ， 提 取 它 的 特征 。 图 像 、 语 音 在 
底层 也 不 过 是 一 堆 数 值 阵列 而 已 ， 体 会 到 这 一 层 的 
话 ， 那 证 明 你 的 神经 元 此 时 已 经 学 会 了 高 度 抽象 ， 如 
果 再 高 一 些 ， 那 就 是 道生 一 ， 三 生 万 物 ， 最 后 道 可 道 
非常 道 了 。 说 的 有 点 醇 了 ， 还 有 个 概念 ， 人 们 把 用 核 
函数 处 理 过 的 窗口 图 片 称 为 特征 图 (Feature Мар) 。 

很 显然 ， 根 据 图 12-56 所 示 ， 最 后 输入 到 神经 网 
络 的 特征 图 的 总 体 像素 数量 比 原 始 图 反而 更 多 了 ， 
这 样 就 会 增加 运算 量 ， 为 此 ， 人 们 就 在 想 ， 是 否 可 以 
对 特征 图 本 身 进行 降 质 采样 ， 也 就 是 直接 降低 其 分 辩 
率 ， 而 且 同 时 不 丢失 太 多 关键 信息 ? 你 可 能 马上 会 想 
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到 “这 不 是 白 忙活 了 么 ? ”一 开始 就 是 因为 直接 降 质 
采样 会 导致 图 片 中 的 关键 信息 丢失 ， 所 以 才 使 用 一 堆 
滤 镜 将 特征 抓 取 下 来 的 方式 ， 而 现在 为 何 又 要 走 老路 
了 ? 其 实 ， 这 条 路 看 上 去 是 老路 ， 实 际 上 却 是 一 条 康 
庄 大 道 ， 因 为 对 特征 进行 降 质 操作 并 不 会 丢失 太 多 关 
键 的 原始 信息 ， 因 为 此 时 特征 已 经 被 抓 取 了 下 来 ， 对 
特征 本 身 进 行 降 质 处 理 ， 特 征 依然 会 大 部 分 保留 。 如 
图 12-57 所 示 ， 如 果 直 接 对 原始 图 片 降 质 ， 则 可 能 会 
导致 最 终 无 法 分 辨 ， 高 度 近视 的 朋友 可 以 摘 下 眼镜 观 
察 图 中 央 的 图 片 ， 眼 神 好 的 读者 也 可 以 隔 远 了 观看 。 
但 是 如 果 对 这 两 幅 图 的 特征 图 进行 降 质 处 理 ， 你 会 发 
现 最 终 依然 可 以 分 辨 出 两 个 特征 图 的 异同 。 

如 图 12-58 所 示 为 对 图 12-56 中 的 特征 图 进行 降 质 
处 理 后 的 低 分 辨 率 特征 图 。 在 图 片 识别 神经 网 络 场 景 
下 ， 可 采用 多 种 降 质 手段 ， 比 如 每 4 个 像素 求 平 均值 
生成 1 个 像素 ， 或 者 每 4 个 像素 只 保留 值 最 大 的 那个 
像素 而 丢弃 其 他 3 个 像素 等 。 人 们 将 降 质 操作 称 为 池 
化 (Pooling) 。 通 常人 们 习惯 采用 上 述 后 者 这 种 只 
保留 最 大 值 的 降 质 方式 ， 该 方式 又 被 称 为 最 大 值 池 化 
(Мах Pooling) 。 

既然 特征 图 被 降 质 都 没什么 问题 ， 那 为 什么 不 能 
把 特征 图 本 身 当 作 输 入 信号 ， 对 其 用 某 种 核 函 数 再 做 
一 次 抽象 呢 ， 也 就 是 抓 取 特 征 的 特征 ? 不 妨 试 一 下 ， 
如 图 12-59 所 示 ， 将 图 12-57 右 侧 的 两 个 特征 图 再 次 用 一 
个 4X4 的 卷 积 核 做 卷 积 操作 ， 最 终生 成 1 个 像素 ， 发 现 
该 像素 依然 可 以 区 分 。 图 12-59 右 侧 所 示 为 对 手写 字形 
“2” 图 片 接连 做 三 次 卷 积 操作 的 结果 。 这 里 需要 注意 
一 点 ， 右 侧 过 程 看 上 去 像 降 质 处 理 ， 实 则 不 是 。 

如 图 12-60 所 示 ， 对 输入 数据 进行 两 轮 卷 积 和 降 质 
操作 ， 第 一 轮 采用 6 个 卷 积 核 做 卷 积 生成 6 张 特征 图 ， 
然后 做 一 轮 降 质 操 作 ， 再 用 16 个 卷 积 核对 这 6 张 特征 图 
再 次 做 卷 积 。 可 以 仔细 观察 该 图 ， 会 发 现在 做 第 二 次 
卷 积 时 ， 并 非 把 每 个 卷 积 核 与 6 张 图 单独 作用 一 次 
而 是 先 将 6 张 特征 图 中 的 4 张 达 加 起 来 ， 然 后 与 卷 积 核 
作用 ， 相 当 于 这 个 算式 “〈 特 征 图 fa+ 特 征 图 雹 + 特征 
图 #c+ 特 征 图 #4) X 某 个 卷 积 核 ， 至 于 a/b/c/d 的 值 可 以 
按照 某 种 规则 而 定 。 这 样 ， 最 终 会 生成 16 个 二 层 特 征 
图 ， 然 后 再 把 这 16 个 特征 图 做 降 质 处 理 ， 最 终 将 结果 
值 输送 到 全 连接 深度 神经 网 络 中 进行 训练 和 识别 。 

照 这 么 说 的 话 ， 卷 积 (Convolution) 、 降 质 
(Pooling) 这 两 个 步骤 可 以 循环 多 次 ， 进 行 多 次 抽 
象 ， 从 而 降低 最 终 输入 到 神经 网 络 中 的 信号 数量 ， 防 
止 参 数 过 多 导致 过 拟 合 的 同时 ， 还 可 以 在 相当 程度 上 
保留 原始 信息 的 特征 ， 的 确 是 这 样 的 。 在 实际 的 一 些 
案例 中 ， 可 能 会 使 用 多 达 几 十 层 甚至 上 百 层 的 抽象 过 
程 。 同 时 ， 为 了 进一步 降低 输入 信息 的 数量 ， 对 于 
卷 积 生成 的 特征 图 中 的 像素 值 ， 如 果 为 负 值 (小 于 
0) ， 则 直接 把 它 当 作 0 看 待 ， 就 相当 于 把 这 些 负 值 数 
据 给 剔除 掉 了 ， 因 为 向 神经 网 络 中 输入 0 的 话 ， 不 会 
导致 该 路 神经 激活 ， 所 以 相当 于 不 存在 该 信号 。 
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特征 图 中 为 何 会 产生 负 值 ? 很 简单 ， 因 为 卷 
积 核 中 可 能 会 有 负 值 。 为 什么 卷 积 核 中 会 有 负 值 
呢 ? 如 果 从 上 帝 视 角 来 理解 这 个 问题 的 话 ， 负 值 
与 原始 信息 相 乘 后 也 会 得 到 负 值 ，0 已 经 表示 没 
有 信号 了 ， 而 负 值 则 表示 对 应 的 像素 与 那些 正 值 
信号 的 反差 更 大 ， 所 以 ， 这 类 卷 积 核 可 以 用 于 强 
行 对 窗口 内 的 图 形 进行 边缘 剥离 ， 如 果 窗 口内 恰 
好 有 对 应 角度 的 边缘 分 界线 ， 那 么 特征 图 内 就 可 
以 明显 看 到 分 界线 ， 而 如 果 窗 口内 没有 对 应 角度 
的 分 界线 ， 那 么 对 应 像素 就 会 被 卷 积 函数 所 离 
散 ， 特 征 图 中 对 应 位 置 也 就 看 不 出 明确 的 边缘 。 
图 12-54 下 方 所 示 的 案例 中 就 可 以 发 现 卷 积 核 中 存 
在 负 值 。 而 如 果 从 机 器 视角 来 理解 的 话 ， 机 器 哪 
儿 会 知道 什么 边缘 不 边缘 这 回 事 ， 机 器 是 在 被 训 
练 的 过 程 中 自然 而 然 地 被 迫 地 将 参数 调整 成 负 值 
的 ， 为 什么 调整 成 负 值 而 不 是 0 或 者 正 值 ? 因为 调 
整 成 0 和 正 值 ， 答 案 不 对 啊 ， 那 只 好 继续 调 低 了 。 
ИН. ЖЖЖА$, ВРТ, HRM 
器 通过 调整 其 他 参数 到 非 负 值 而 达到 了 同样 效果 
怎么 办 ? 如 前 文 所 述 ， 正 确 答案 可 能 不 止 一 个 
都 可 以 ， 但 是 不 要 过 了 头 ， 也 就 是 如 图 12-26 右 侧 
所 示 。 


对 负 值 进行 剔除 的 过 程 ， 可 以 用 一 个 函数 表示 ， 
该 函数 的 输入 为 负 值 时 ， 输 出 恒 
正 值 时 ， 输 出 = 输入 。 这 个 函数 


为 0; 当 


的 实现 太 简单 了 ， 几 行 代码 就 可 以 。 该 函数 被 称 为 
。 既 然 


如 此 ， 卷 积 处 理 过 程 中 就 要 增加 一 步 ， 变 为 : 卷 积 、 
ReLU、 池 化 。 


二 层 特征 图 #2 
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Rectified Linear Unit ( ReLU ) 


如 图 12-62 所 示 为 对 字形 “A” 进 行 训练 或 者 识别 
的 一 个 样 例 流程 ， 其 采用 了 两 次 卷 积 ，ReLU， 池 化 
处 理 。 每 一 轮 处 理 均 采用 两 个 卷 积 核 处 理 出 两 个 特征 
图 。 其 中 第 二 次 处 理 流程 中 将 第 一 步 生 成 的 两 个 特征 
图 琶 加 之 后 再 卷 积 、ReLU、 池 化 。 最 终 得 到 的 两 个 特 


征 图 拼接 起 来 然后 与 训练 时 固化 下 来 的 神经 元 去 尝试 
匹配 。 


如 图 12-63 所 示 为 对 一 幅 轿 车 图 片 进行 识别 的 过 
程 ， 可 以 看 到 它 采 用 了 6 层 卷 积 操作 ， 但 是 每 两 次 卷 


анн Жыл а 0 在 
实际 工程 中 ， 人 们 往 和 


要 不 断 地 调整 卷 积 层 
池 化 次 数 及 位 置 、 卷 积 核 EA eise 
求 的 识别 准确 率 ， 搞 机 器 学 习 相 当 一 部 分 时 间 都 是 
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从 而 药 到 病 除 。 就 像 尝 百草 一 样 ， 只 不 过 调 参数 不 
会 死人 。 

现在 仔细 思考 一 下 ， 对 于 将 卷 积 核 与 原始 图 片 相 
乘 再 相 加 这 个 过 程 ， 如 果 将 卷 积 核 中 的 值 看 作 是 权重 
值 不 ， 原 始 图 片 作为 输入 ， 那 么 其 本 质 上 就 是 在 计算 
的 过 程 ， 这 不 就 是 一 个 多 
输入 神经 元 的 输入 和 输出 过 程 么 ? 但 是 ， 与 全 连接 网 


络 不 同 的 是 ， 卷 积 核 与 原始 信息 采用 滑动 窗口 的 方式 
乘 加 ， 同 一 个 卷 积 核 内 的 值 轮流 与 原始 图 片 的 多 个 部 
分 做 乘 加 运算 ， 相 当 于 用 相同 的 一 组 权重 来 运算 ， 而 
全 连接 网 络 中 的 每 条 神经 的 权重 各 自 独 立 。 

如 果 把 卷 积 的 过 程 用 神经 网 络 的 方式 表达 出 来 ， 
就 是 如 图 12-64 所 示 的 卷 积 神经 网 络 (Convolutional 
Neural Network，CNN) 。 图 示 的 网 络 以 一 个 6 像素 
x 6 像素 的 图 片 作为 输入 ， 识 别 其 属于 10 种 类 别 中 
的 哪 一 类 。 可 以 看 到 其 中 第 1/2/3/7/8/9/13/14/15、 
2/3/4/8/9/10/14/15/16… 每 9 个 像素 与 各 自 的 权重 相 乘 
后 相 加 《〈 令 b=0) 输出 ， 这 其 实 就 是 在 用 一 个 3X3 的 
卷 积 核对 图 片 做 卷 积 操作 。 输 出 的 结果 再 经 过 ReLU 
函数 处 理 并 输出 给 池 化 层 做 降 质 采样 ， 本 例 中 采用 4 
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ReLU ReLU 
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个 像素 平均 成 1 个 像素 的 算法 。 可 以 采用 多 个 卷 积 核 
同时 对 图 片 做 卷 积 ， 其 他 卷 积 核 的 运算 输出 结果 由 于 
空间 有 限 在 图 中 以 省 略 号 表示 。 降 质 后 的 特征 图 再 次 
用 一 个 2X2 的 卷 积 核 做 卷 积 ， 然 后 是 ReLU 和 池 化 处 
理 ， 这 一 层 池 化 采用 滑动 窗口 方式 ， 也 采用 4 个 像素 
平均 为 1 个 的 算法 ， 但 是 步 长 设置 为 1 个 像素 。 这 一 步 
输出 的 结果 再 次 被 降 质 采样 ， 采 用 4 个 像素 求 平均 且 
滑动 步 长 为 1 的 算法 ， 最 终 将 这 一 层 的 输出 结果 输送 
到 一 个 全 连接 网 络 (或 者 单 层 网 络 或 者 深度 的 多 层 网 
络 ) 中 进行 训练 或 者 识别 。 

卷 积 神经 网 络 现 将 原始 信号 做 多 轮 卷 积 和 降 质 处 
理 (具体 做 多 少 轮 没 有 理论 值 ) ， 这 本 质 上 就 是 在 降 
低 输 入 信号 数量 且 尽 量 保留 原始 特征 ， 如 果 单 纯 从 抽 
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象 的 角度 来 看 ， 抛 弃 实 际 可 感知 的 物理 意义 ， 卷 积 层 
的 连接 方式 由 全 连接 变 成 了 部 分 连接 共享 同一 组 权重 
的 方式 ， 这 就 极 大 降低 了 参数 的 数量 ， 让 运算 更 加 高 
效 。 至 于 将 这 一 组 权重 形象 地 理解 为 卷 积 核 、 滤 镜 ， 
这 也 算是 人 脑 对 这 种 机 制 的 一 种 具体 化 形象 化 的 解 
Ж, 任何 上 层 的 可 感知 的 含义 ， 脱 掉 了 “含义 ”这 件 
外 衣 到 了 底层 其 实 都 是 一 些 抽 象 星 涩 的 数学 表达 ， 但 
是 缺失 了 含义 的 数学 规律 ， 也 只 有 数学 爱好 者 才能 
解 其 中 的 美妙 了 。 

对 于 彩色 的 BMP 格式 图 片 ， 每 个 像素 24 位 ， 
高 、 中 、 低 8 位 分 别 表示 红 、 绿 、 蓝 色 的 色 度 ， 每 个 
像素 由 这 三 种 色 度 县 加 后 就 可 以 显示 出 各 种 其 他 颜 
色 。 如 果 把 一 张 彩色 图 片 中 每 个 像素 都 切 开 成 只 
留 三 原色 中 一 种 颜色 色 度 的 话 ， 那 么 对 应 的 三 张 图 
片 被 称 为 该 图 片 的 三 个 通道 (Channel〉。 把 三 个 通 
道 重新 登 加 起 来 ， 就 会 形成 彩色 图 片 ， 如 图 12-65 所 
示 。 对 于 彩色 图 片 的 卷 积 操作 ， 需 要 分 别 对 三 个 通 
道 图 分 别 卷 积 生成 特征 图 ， 然 后 再 将 特征 图 登 加 起 
来 即 可 。 
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好 奇 心 似乎 是 人 类 大 脑 的 天 性 之 一 ， 人 类 一 定 
想 对 机 器 的 学 习 过 程 和 结果 的 本 质 规律 进行 一 番 探 
索 。 有 人 已 经 将 神经 网 络 训练 过 程 可 视 化 展现 了 出 
来 ， 可 访问 http://playground.tensorflow.org 网 站 来 一 
探究 竟 。 如 图 12-66 所 示 为 该 网 站 提供 的 可 视 化 机 器 
学 习 工 具 ， 该 工具 利用 浏览 器 在 本 地 机 器 上 进行 机 
器 学 习 训练 并 可 视 化 展现 ， 其 提供 了 多 种 数据 样本 
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В bits Red Channel + 8 bits Green Channel + 8 bits Blue Channel = 24 bits RGB Color 


供 训练 。 这 里 选择 其 中 最 难 的 一 个 ， 也 就 是 对 排列 
成 螺 线 的 两 种 颜色 的 样 点 做 分 类 。 这 需要 神经 网 络 
拟 合 出 复杂 的 螺旋 线 曲 线 ， 前 文中 介绍 过 ， 利 用 激 
励 函 数 对 直线 进行 扭曲 ， 再 加 上 对 与 或 非 三 种 关系 
的 运用 《〈 见 前 文 图 12-27) , HEE EF DIBIN Ж 
线 。 同 时 也 介绍 过 ， 对 于 高 次 曲线 ， 如 果 能 预先 
就 设计 出 高 次 模型 ， 那 么 可 能 拟 合 过 程 就 会 简单 迅 
速 许多 。 
不 妨 先 采 用 线性 模型 来 看 看 会 有 什么 结果 ， 如 
图 12-67 左 侧 所 示 ， 输 入 层 只 输入 两 个 线性 变量 ， 相 
РТ ТО, ЖАЉЕЊЕ, 226 А 
神经 元 ， 经 过 五 千 多 次 迭代 后 ， 形 成 了 右 侧 的 分 类 曲 
线 ， 拟 合 度 一 般 。 前 文中 也 提 到 过 ， 神 经 元 层 数 太 低 
的 话 ， 就 会 欠缺 一 些 比较 零件 导致 欠 拟 合 ， 所 以 增 
加 隐藏 层 到 4 层 ， 经 过 三 千 多 次 训练 后 ， 拟 合 度 有 所 
提升 。 

如 图 12-68 所 示 ， 增 加 隐藏 层 数 量 到 6 层 ， 每 层 都 
有 6 个 神经 元 ， 在 经 过 一 干 多 次 迭代 后 ， 拟 合 度 明显 
提升 了 ， 而 且 训练 速度 也 快 多 了 ， 看 来 哼哈 二 将 也 
能 唱 出 美妙 的 歌曲 ， 不 过 也 真是 难为 他 俩 了 。 他 俩 
后 天 再 怎么 努力 ， 看 来 也 赶不上 自 带 二 次 项 、 乘 积 
项 甚至 Sin() 项 的 选手 ， 这 些 选手 预先 拥有 了 各 类 二 
次 项 高 次 项 这 些 预 处 理 过 的 法 宝 ， 如 图 12-67 右 侧 所 
示 ， 把 这 些 零 部 件 都 选 上 
练 出 拟 合 度 较 高 的 曲线 。 当 然 ， 人 和 机 器 有 一 点 不 
同 是 ， 有 了 这 些 法 宝 的 人 似乎 在 后 天 时 动力 普遍 不 
足 ， 不 过 也 不 排除 手持 宝贝 还 勤快 同时 神经 元 数量 
又 充沛 的 人 。 

如 图 12-69 所 示 ， 即 便 采 用 同样 的 网 络 模型 和 训 
练 样本 ， 每 次 训练 产生 的 结果 也 是 随机 的 ， 因 为 各 个 
权重 参数 在 初始 化 时 就 是 随机 的 。 


8 bits Grayscale image 24 bits Truecolor image 
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仔细 观察 一 下 上 面 这 几 张 图 可 以 发 现 ， 第 一 层 
神经 元 会 将 输入 项 登 加 成 一 些 简单 的 曲线 、 区 域 。 
越 往 深层 次 走 ， 司 加 出 来 的 曲线 越 复杂 ， 而 且 越 接 
近 真 相 ， 直 到 最 后 一 层 ， 已 经 基本 接近 真相 ， 就 差 
117—0, БАБ — E BUE TER MORS ALS, о 
出 最 终结 果 。 当 然 ， 图 中 采用 了 一 些 可 视 化 手段 ， 
将 每 个 神经 元 合 加 成 的 曲线 展示 了 出 来 。 在 视频 中 
也 可 以 看 到 ， 将 鼠标 放置 到 某 个 神经 元 上 ， 会 发 现 
在 训练 过 程 中 该 神经 元 会 对 自身 登 加 出 的 曲线 进行 
调整 ( 通过 调整 输入 信号 的 权重 ) ， 多 个 神经 元 登 
加 之 后 ， 就 导致 最 终结 果 曲 线 在 高 维度 不 断 调整 。 
这 相当 于 每 个 神经 元 只 负责 摸索 和 打磨 自己 生成 的 
小 零件 ， 所 有 神经 元 共同 完成 育 人 摸 象 的 任务 。 如 
果 从 另 一 个 角度 思考 ， 当 该 网 络 训练 完成 后 ， 对 于 
XARA (ХІ, Y1) ， 其 信号 输入 到 该 网 络 后 ， 
会 被 每 个 神经 元 依次 与 权重 相 乘 ， 然 后 相 加 ， 这 个 
过 程 重复 多 次 之 后 ， 计 算出 一 个 结果 ， 该 结果 有 两 
个 可 能 的 值 (比如 大 于 0 或 者 小 于 0， 或 者 接近 1 和 
接近 0 ) ， 通 过 判断 其 属于 哪个 值 来 判断 该 点 落 入 
了 蓝 色 区 域 还 是 橙色 区 域 。 也 就 是 说 ， 如 果 该 样本 
点 属于 蓝 色 区 域 ， 那 么 其 经 过 神经 网 络 的 计算 之 后 
的 值 ， 就 会 接近 代表 蓝 色 这 个 类 别 的 值 。 不 由 得 想 
起 了 物理 学 中 的 一 个 未 解 之 证 ， 把 电子 一 个 一 个 地 
射 向 双 缝 ， 为 何 也 会 出 现 干涉 图 案 ? 


扫描 图 12-69 中 的 二 维 码 可 观看 冬瓜 哥 把 玩 该 
神经 网 络 的 视频 。 在 这 个 过 程 中 ， 冬 瓜 哥 真是 感慨 
万 千 ， 听 着 电脑 风扇 狂 转 的 风声 ， 感 受到 CPU 正 以 全 
速 进 行 运算 ， 看 着 曲线 不 断 变化 、 神 经 不 断 地 往复 调 
整 权重 而 变 得 频繁 抖动 ， 有 时 马上 就 要 接近 答案 ， 却 
功 亏 一 筑 ;， 有 时 候 只 要 加 上 一 个 神经 元 ， 就 可 以 解 出 
答案 ， 就 是 缺 了 关键 的 一 根 筋 的 事 。 

通过 向 该 神经 网 络 中 加 入 不 同 数量 的 隐藏 层 和 神 
经 元 ， 选 择 不 同 的 输入 项 ， 感 受到 了 造物 者 纯 手工 设 
计 神 经 元 自 带 标准 答案 的 天 才 型 、 快 速 找到 近似 结果 
但 潜力 不 足 的 速成 型 、 神 经 元 层 数 过 多 磨 磨 嘿嘿 的 慢 


热 但 是 后 续 潜力 无 限 型 、 神 经 元 锣 是 打 不 通 走 两 步 就 
卡 在 半截 的 废 此 型 、 丁 点 儿 刺 激 立 马 过 度 激活 再 也 回 
不 来 的 神经 质 型 等 各 类 大 脑 的 特质 ， 也 体会 出 了 学 习 
过 程 中 的 挣扎 、 停 滞 、 茅 塞 顿 开 、 功 亏 一 筑 、 推 倒 重 
来 、 修 成 正果 的 过 程 。 策 鸟 先 飞 ， 先 天 没 得 到 平方 项 
和 正弦 项 的 优越 条 件 ， 就 会 两 招 ， 非 横 既 直 ， 那 就 只 
能 靠 后 天 的 努力 ， 把 闲置 的 神经 元 用 起 来 ， 甚 至 进化 
出 更 发 达 的 神经 元 ， 我 仿佛 看 到 这 些 神经 元 恒久 的 动 
力 和 毅力 ， 那 么 这 种 裔 力 从 何 而 来 ? 似乎 有 些 神经 元 
持续 提供 着 这 种 角力 源泉 。 冬 瓜 哥 不 禁 想到 了 本 书 的 
写作 过 程 ， 又 何尝 不 是 一 场 艰 苦 的 训练 过 程 ， 中 间 经 
历 了 不 知道 多 少 波折 坎坷 ， 上 面 所 有 的 形容 词 合 加 起 
来 也 无 法 形容 本 书 那 上 天 入 地 排山倒海 披 星 戴 月 的 写 
作 过 程 。 

再 来 看 看 用 于 图 像 识别 时 所 采用 的 卷 积 神经 网 
络 在 训练 时 到 底 学 习 了 一 些 什么 东西 。 如 图 12-70 所 
示 ， 该 网 络 采用 两 层 卷 积 ， 第 一 层 采用 6 个 卷 积 核 ， 
第 二 层 用 了 16 个 卷 积 核 。 可 以 看 到 第 一 层 卷 积 核 好 像 
是 在 识别 图 形 的 边缘 ， 其 中 3 号 卷 积 核 识别 的 是 向 右 
上 方 倾斜 的 边缘 。 如 果 待 识别 区 域 中 对 应 的 像素 与 卷 
积 核 中 的 正 值 像素 〈 正 值 意味 着 该 像素 被 加 强 ， 是 该 
卷 积 核 希 望 检测 到 的 信息 ) 相 乘 后 的 值 也 很 大 ， 则 证 
明 待 识别 区 域 与 卷 积 核 形 成 了 共鸣 ， 表 明 检 测 到 了 该 
卷 积 核对 应 的 范式 。 另 外 可 以 看 到 ， 图 中 左右 两 侧 给 
出 的 字形 非常 相似 ， 只 有 一 点 点 儿 ， 但 最 终 还 是 被 准 
确 地 识别 ， 这 得 益 于 多 个 卷 积 核对 图 片 的 特征 提取 。 
如 果 采 用 普通 的 不 使 用 卷 积 的 多 层 分 类 器 网 络 来 识 
别 ， 最 后 很 有 可 能 对 这 两 个 图 形 会 产生 混淆 误 判 。 

图 12-71 是 某 个 可 直接 对 摄像 头 输入 的 图 片 中 多 
种 类 型 物品 做 实时 对 象 检测 、 识 别 的 神经 网 络 ， 其 
使 用 了 5 个 卷 积 层 和 3 个 全 连接 层 ， 每 层 卷 积 跟随 着 
池 化 层 和 采用 Sigmoid 激 励 函数 处 理 的 激励 层 。 由 于 
Sigmoid 函 数 会 将 输出 值 限制 在 0 和 1 之 间 ， 这 个 过 程 
被 称 为 归 一 化 (Normalize) ， 在 第 8 章 中 也 提 到 过 这 
个 概念 。 图 中 左上 和 角 所 示 为 卷 积 层 #1 所 采用 的 卷 积 
核 ， 可 以 发 现 其 基本 上 是 在 尝试 检测 各 种 角度 、 范 式 
的 边缘 ， 以 及 各 种 色彩 组 合 。 可 以 看 到 随 着 卷 积 层 数 
的 增加 ， 深 层 卷 积 层 已 经 将 图 像 抽 象 成 了 无 法 识别 轮 


廓 的 、 看 不 出 物理 含义 的 像素 组 合 斑点 。 这 些 斑点 本 
质 上 就 是 代表 待 识 别 图 形 的 一 段 序列 ， 然 后 将 其 输入 
全 连接 层 进行 分 类 即 可 。 

如 图 12-72 左 半 部 分 所 示 ， 当 待 识别 图 形 中 出 现 
竖 直 方向 的 、 左 边 亮 、 右 边 暗 的 边缘 时 ， 卷 积 层 #1 
中 专门 检测 这 类 边缘 的 神经 元 被 激活 ， 因 为 对 应 的 卷 
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积 核 卷 积 后 形成 了 共鸣 ， 向 该 神经 元 输入 了 较 
值 ， 最 终 相 加 后 体现 为 被 激活 到 相当 的 程度 ， 其 
他 的 神经 元 也 有 一 定 程度 的 激活 ， 但 是 由 于 它们 检测 
的 都 是 其 他 范式 的 边缘 ， 所 以 匹配 度 不 是 那么 高 。 再 
ЖЕНЕ 分 ， 此 时 输入 图 片 中 没有 明显 的 边 
缘 ， 但 是 有 一 些 细 细 的 字体 阵列 ， 而 此 时 可 以 看 到 有 
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一 批 能 够 检测 更 复杂 范式 边缘 的 神经 元 对 这 种 范式 非 ”个 少数 神经 元 之 后 ， 这 些 少 数 神经 元 自然 也 就 有 了 更 
常 对 口味 ， 被 激活 到 了 一 定 程度 。 当 然 左 图 中 那个 检 ” ”高 的 激活 值 ， 于 是 ا‎ 张 脸 ， 我 只 看 脸 不 看 
测 竖 直 边缘 的 神经 元 也 被 激活 到 一 定 程度 ， 因 为 字体 HR, ЖА”. AE, ЖЕНЕ “ВН 
阵列 中 也 有 明显 的 竖 直 边缘 存在 。 了 一 个 鼻子 ， 我 只 看 鼻子 ， 不 看 鼻孔 ， 鼻 孔 太 俗 ”， 
如 图 12-73 所 示 ， 当 纸张 向 右 侧 继续 滑动 时 ， 出 ” 那 总 得 有 人 做 俗 的 事情 ， 卷 积 层 妆 中 某 个 神经 元 可 能 
现 了 竖 直 方向 、 右 边 亮 、 左 边 暗 的 边缘 ， 此 时 卷 积 — 会 看 到 鼻孔 轮廓 ， 但 是 由 于 卷 积 层 妇 的 抽象 程度 也 较 
层 #1 中 识别 ， 专 门 送别 这 种 范式 的 神经 元 被 高 强度 高， 图 中 是 看 不 出 鼻孔 轮廓 的 。 
激活 。 既然 如 此 ， 那 么 是 不 是 只 要 在 某 个 图 片 中 各 处 

我 们 再 来 看 看 最 深层 的 卷 积 层 的 输出 的 图 像 变 成 分 布 着 独立 的 眼睛 、 鼻 子 、 耳 人 条、 嘴唇 的 局 部 图 片 ， 
的 样子 ， 如 图 12-74 所 示 。 由 于 多 层 卷 积 、 池 化 、 激 励 ” 神经 网 络 也 会 认为 这 是 一 个 人 脸 呢 ? 不， 这 分 明 是 一 
的 处 理 ， 在 这 一 层 已 经 根本 看 不 到 具有 人 脑 下 te E 2. 
物体 轮廓 边缘 ， 而 只 是 一 堆 斑点 ， 但 是 仍然 丰台 ` 


些 有 意思 的 事情 。 有 些 神经 元 对 脸 有 响应 ， 所 说 的 4 
脸 还 是 猫 脸 ， 只 要 两 坨 圆 点 在 上 面 ， 中 间 一 坨 鼻子 ， 该 零 部 件 рана ым лкені "me 
下 面 一 坨 嘴 的 东西 ， 对 应 的 神经 元 就 会 被 激活 到 一 定 ”在 该 图 片 内 的 相对 偏 移 量 必须 与 训练 时 所 采用 的 图 形 


差不多 才 可 以 ， 匹 配 越 精准 ， 响 应 程度 越 高 。 也 就 是 
说 ， 神 经 网 络 识别 的 是 落 入 了 近似 偏 移 量 范围 的 某 个 


程度 。 
所 以 ， 这 些 ; 


恨 神 经 元 的 口味 已 经 是 非常 


雅 ” 了， 它们 已 经 不 再 关注 细小 的 边缘 等 р 零 部 件 ， 所 以 ， 只 有 当 某 个 整体 事物 的 所 有 局 部 特征 
“低俗 ”特征 了 ， 而 只 在 乎 高 层 的 总 体 特 征 。 当 然 ， 都 在 各 自 对 应 的 相对 位 置 上 时 ， 该 整体 事物 就 会 激发 


an 


高 雅 只 是 表面 ， 剥 开 来 看 的 话 ， 也 不 过 是 一 堆 俗 不 可 TUNE 几 个 神经 元 兴奋 。 
耐 的 合 加 。 如 图 12-74 右 侧 所 示 ， 卷 积 层 #5 的 高 么 判断 哪 一 层 卷 积 层 的 神经 元 响应 的 是 哪些 
建立 在 卷 积 层 妈 层 中 的 一 堆 也 对 人 脸 响应 ， 但 是 各 自 Ns 2? 那 就 找 类 似 的 零 部 件 输入 给 网 络 ， 看 看 哪 
响应 更 细节 的 比如 眼睛 、 鼻 子 、 耳 杀 、 眉 毛 、 嘴 唇 等 些 神经 元 激活 就 可 以 了 ， 比 如 找 一 堆 人 脸 图 片 输入 网 
的 神经 元 上 的 ， 当 这 些 神经 元 每 个 都 在 盲人 摸 络 ， 发 现 某 些 神 经 元 /特征 图 只 对 人 脸 有 响应 
脸 ， 有 的 说 我 措 到 了 耳 打 ， 有 的 说 我 摸 到 了 鼻子 ， 眼睛 眉毛 图 片 输入 到 网 络 ， 发 现 某 些 * У 
这 些 神经 元 将 激活 值 乘 加 到 卷 积 层 怒 的 某 个 或 者 某 对 眼睛 眉毛 有 响应 。 最 终 人 们 发 现 ， 不 管 什么 


积 神经 网 络 ， 有 多 少 层 ， 用 了 多 少 神经 元 ， 最 终 现象 
是 : 外 层 的 卷 积 层 对 一 些 基 础 边缘 特征 响应 ， 越 往 深 
层 的 卷 积 层 神经 元 ， 就 只 对 高 层次 抽象 的 整体 物体 进 
行 响 应 。 或 者 说 ， 当 输入 一 幅 人 脸 图 片 时 ， 第 一 层 卷 
积 层 神经 元 只 对 细小 边缘 进行 响应 ， 第 二 层 则 只 响应 
圆 形 、 方 形 等 二 级 轮廓 ， 第 三 层 则 只 响应 由 圆 、 方 等 
又 加 成 的 更 高 级 轮廓 ， 比 如 嘴 、 鼻 子 、 眼 睛 等 ， 第 四 
层 则 只 响应 由 上 一 层 拼接 而 成 的 更 高 层 轮廓 ， 比 如 整 
张 脸 。 也 就 是 说 ， 卷 积 神经 网 络 越 深层 次 的 卷 积 层 的 
感受 野 也 越 大 。 这 个 现象 在 图 12-66 一 图 12-69 中 也 可 
以 体会 到 。 有 一 点 无 法 直观 理解 的 是 ， 人 们 并 没有 预 
先 限定 任何 条 件 ， 或 者 给 出 任何 暗示 ， 机 器 只 靠 一 些 
随机 初始 参数 ， 最 终 就 能 收敛 成 上 述 的 识别 模型 ， 这 
就 是 机 器 学 习 最 吸引 人 之 处 。 而 且 人 们 发 现 ， 生 物 的 
大 脑 对 不 同 物体 的 响应 也 存在 类 似 行为 ， 也 就 是 对 于 
不 同事 物 ， 会 在 大 脑 不 同 部 位 产生 电信 号 。 

但 是 在 图 12-74 中 ， 很 明显 神经 网 络 可 以 识别 出 
一 幅 图 形 中 出 现 了 两 个 人 脸 ， 难 道 训 练 的 时 候 也 使 用 
了 大 量 分 布 在 图 形 内 各 处 的 两 个 人 脸 的 图 片 ? 并 非 如 
此 。 训 练 时 可 以 采用 大 量 的 只 包含 一 个 人 脸 的 图 片 ， 
但 是 这 个 人 脸 并 非 占据 整个 图 片 大 部 分 ， 而 是 缩小 然 
后 被 放置 在 图 片 各 处 。 这 样 神经 网 络 就 会 被 训练 出 能 
够 识别 出 五 官 以 及 整个 人 脸 的 卷 积 核 ， 此 后 不 管 图 片 
中 哪个 位 置 有 人 脸 ， 网 络 都 可 以 识别 出 来 。 而 如 果 训 
练 的 时 候 只 把 某 个 缩小 的 人 脸 放 到 图 片 的 左下 角 固 定 
位 置 ， 网 络 也 可 以 训练 出 识别 五 官 和 人 脸 的 卷 积 核 ， 
当 给 该 网 络 输入 分 布 在 左下 角 、 右 上 和 角 两 个 人 脸 的 图 
片 时 ， 使 用 对 应 卷 积 核 扫 描 全 图 的 时 候 自然 也 会 在 下 
一 层 的 特征 图 对 应 位 置 中 出 现 多 个 人 脸 区 域 ， 也 就 是 
图 12-74 中 的 场景 ， 此 时 该 神经 网 络 依然 会 判定 该 图 
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片 中 含有 人 脸 ， 但 其 原因 仅仅 是 因为 左下 角 的 确 有 一 
个 人 脸 ， 而 右上 角 的 人 脸 并 非 做 出 这 个 判断 的 原因 。 
也 就 是 说 ， 如 果 给 该 网 络 输入 一 幅 在 左上 角 有 一 个 差 
不 多 大 小 的 人 脸 的 图 片 的 话 ， 那 么 此 时 在 某 一 层 特征 
图 中 依然 可 以 看 到 有 一 个 对 人 脸 的 强 激活 ， 因 为 卷 积 
核 的 确 在 该 位 置 扫描 到 了 人 脸 ， 但 是 最 终 网 络 却 不 会 
认为 该 图 中 有 人 脸 〈 该 网 络 训练 时 只 输入 了 左下 角 有 
人 脸 的 图 片 》， 因 为 最 终 的 特征 图 再 被 输入 到 全 连接 
网 络 进行 识别 时 ， 左 上 角 人 脸 虽然 被 强 激 活 ， 但 是 这 
些 神经 元 所 在 的 位 置 与 当初 训练 时 不 同 ， 所 以 最 终 网 
络 并 不 会 判定 该 图 中 有 人 脸 。 除 非 当 时 训练 的 时 候 也 
存在 左上 角 和 左下 角 同 时 有 人 脸 的 图 片 ， 而 且 告 诉 神 
经 网 络 这 图 的 确 包 含 人 脸 。 

12.5 节 也 介绍 过 ， 还 可 以 采用 先 抠 图 的 物体 检测 
过 程 ， 将 该 物体 抠 出 来 ， 然 后 缩放 到 与 神经 网 络 训练 
时 所 采用 的 分 辩 率 相同 的 图 片 ， 然 后 载 入 神经 网 络 识 
别 。 所 以 为 了 实现 上 述 同 一 个 图 片 内 可 以 识别 多 个 人 
脸 的 效果 ， 也 可 以 先 检测 到 两 个 物体 ， 分 别 载 入 网 络 
识别 ， 最 终 发 现 两 个 都 是 人 脸 ， 然 后 经 过 后 期 处 理 、 
展示 将 两 个 人 脸 分 别 识别 时 的 对 应 图 像 按照 对 应 物体 
当时 被 检测 到 的 出 现在 窗口 内 的 位 置 ， 将 卷 积 后 的 图 
像 合成 到 一 起 输出 。 

如 图 12-76 所 示 ， 该 特征 图 好 像 检测 的 是 人 的 双 
JH? 于 是 用 手 揪 住 一 侧 肩膀 ， 的 确 有 一 半 响 应 值 消失 
了 ， 但 是 再 把 手 拿 下 来 却 发 现 另 一 半 响 应 值 并 没有 恢 
复 。 原来， 这 个 特征 图 检测 的 是 上 衣 肩膀 处 的 裙 皱 ， 
图 片 中 的 测试 者 把 其 左肩 的 裙 皱 抹 平 了 ， 机 器 竟然 学 
习 到 这 个 特征 用 来 识别 人 ， 还 真是 另辟蹊径 ， 只 有 人 
穿着 上 衣 时 会 产生 这 个 效果 ， 还 真是 很 容易 与 其 他 类 
别 物体 区 分 开 。 
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图 12-75 各 种 零 部 件 分 布 摆 放 的 话 并 不 会 被 识别 成 一 个 整体 


12-76 ”识别 裙 皱 的 特征 图 


下 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


如 图 12-77 所 示 为 一 个 专门 识别 带 有 英文 字母 物 
体 的 特征 图 ， 当 输入 没有 英文 字母 的 物体 时 ， 该 特征 
图 一 片 漆黑 毫 无 响应 ， 一 旦 检测 到 各 种 带 有 英文 字母 
的 物体 ， 则 其 开始 响应 。 

Hm» 

图 12-71 和 图 12-72 中 有 很 多 神经 元 自始至终 对 
任何 输入 都 没有 什么 响应 ， 这 些 神经 元 被 称 为 死神 
经 元 ， 其 产生 的 原因 很 大 程度 上 是 由 于 过 高 的 学 习 
率 ， 导 致 步子 太 大 。 


如 图 12-78 所 示 ， 该 网 络 识别 位 于 正中 央 的 大 头 
照片 ， 经 过 一 番 训 练 之 后 ， 生 成 了 用 于 识别 五 官 的 
若干 个 卷 积 核 ， 这 些 卷 积 核 扫描 全 图 后 在 经 过 池 化 降 
质 处 理 后 将 五 官 特征 抓 取 成 一 个 或 者 几 个 点 ， 这 些 特 
征 图 车 加 之 后 就 会 形成 一 个 人 脸 的 大 致 抽象 轮廓 ， 下 
一 层 卷 积 核 中 会 被 训练 出 用 于 识别 该 抽象 轮廓 的 卷 积 
核 ， 如 图 中 红色 箭头 所 示 的 这 个 。 当 然 ， 也 有 可 能 会 
再 次 分 为 更 多 层次 的 识别 ， 比 如 有 的 卷 积 核 识 别人 脸 
上 半 部 分 ， 有 的 卷 积 核 识别 下 半 部 分 ， 再 次 抽象 ， 再 
到 下 一 层 卷 积 核 中 可 能 会 产生 识别 整个 人 脸 特征 的 卷 
积 核 。 经 过 多 次 抽象 之 后 ， 一 张 人 脸 最 终 可 能 被 抽象 
为 一 个 或 者 几 个 点 ， 这 几 个 点 按照 对 应 的 相对 偏 移 量 
排 布 ， 然 后 再 被 输入 到 全 连接 网 络 中 识别 这 种 相对 顺 
序 。 当 然 ， 由 于 每 个 人 脸 也 不 同 ， 所 以 识别 的 时 候 这 


几 个 点 的 强度 就 会 有 变化 ， 但 是 相对 位 置 并 不 会 大 
变 ， 因 为 在 外 层 卷 积 的 时 候 就 会 屏蔽 掉 相 当 的 位 置 差 
异 ， 还 记得 卷 积 的 结果 是 把 卷 积 窗口 内 所 有 点 相 乘 最 
后 相 加 成 为 一 个 像素 么 ? 如 果 有 些 位 置 差异 局 限 在 卷 
积 窗口 内 部 ， 则 这 些 差 异 最 终 会 被 屏蔽 ， 每 一 层 都 如 
此 和 迭代 的 话 ， 最 终 的 特征 像素 点 基本 上 体现 为 恒定 的 
相对 位 置 。 如 果 待 识别 样本 差异 过 大 ， 则 可 能 导致 最 
终 产 生 的 特征 样 点 相对 位 置 有 较 小 或 者 较 大 的 变化 ， 
此 时 全 连接 网 络 的 匹配 概率 就 会 下 降 ， 可 能 最 终 导 致 
误 判 。 

如 图 12-79 所 示 为 某 可 以 识别 多 种 不 同 种 类 物体 
图 片 的 神经 网 络 所 训练 出 的 各 层 卷 积 核 情况 ， 第 1 层 
卷 积 核 基本 上 是 识别 各 种 边缘 以 及 平坦 色 块 区 域 。 
第 3 层 卷 积 被 训练 出 识别 各 种 表面 纹理 材质 。 到 了 第 5 
层 ， 卷 积 核 开 始 识别 一 些 整 体 的 物体 ， 由 于 深层 的 卷 
积 核 所 识别 出 的 轮廓 已 经 非常 模糊 抽象 ， 所 以 图 中 做 
了 一 些 De-Convolution 处 理 ， 增 加 了 卷 积 核 的 细节 ， 
同时 为 了 更 加 可 视 化 地 感知 ， 找 到 了 一 些 能 够 让 某 
卷 积 核 产 生 很 高 乘 加 结果 值 的 样 例 图 片 ， 然 后 将 De- 
Conv 处 理 之 后 的 卷 积 核 图 片 投射 在 对 应 的 样 例 图 片上 
看 看 卷 积 核 识别 的 轮廓 是 否 与 这 些 样 例 图 片 匹 配 。 可 
以 观察 到 能 够 识别 钟表 、 汽 车 前 轮 附 近 一 角 以 及 狗 脸 
部 的 卷 积 核 的 处 理 后 图 样 ， 还 可 以 发 现 其 中 用 于 识别 
狗 脸 部 的 该 层 卷 积 核 竟然 可 以 识别 混和 又 在 一 起 的 各 种 
角度 的 狗 脸 ， 这 说 明 该 网 络 曾经 被 用 含有 不 同 角 度 狗 


图 12-77 ”识别 带 有 英文 字母 物体 的 特征 图 
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图 12-78 一 张 脸 抽象 成 几 个 点 


脸 的 图 片 训练 过 。 经 过 一 些 特殊 可 视 化 处 理 ， 甚 至 可 
以 看 到 在 最 终 的 全 连接 层 会 看 到 什么 样 的 全 局 景观 ， 
为 了 证 明 最 后 一 层 输出 层 对 同一 类 别 物体 会 在 固定 的 
神经 元 响应 ， 于 是 使 用 一 些 含有 多 个 相同 物体 ， 每 个 
物体 又 有 些许 差别 的 图 片 ， 将 对 该 图 片 有 响应 的 所 有 
层 中 的 卷 积 核 琶 加 投射 到 该 图 片 ， 就 形成 了 右 侧 所 示 
的 图 样 。 

图 12-79 中 的 第 3 层 和 最 后 一 层 的 图 像 看 上 去 别 有 
一 番 滋 味 ， 它 们 是 如 何 生 成 的 ? 这 个 说 来 比较 有 趣 。 
如 果 能 够 输入 某 个 图 片 让 神经 网 络 迭 代 出 能 够 识别 这 
个 图 片 的 神经 元 参数 ， 那 为 什么 不 能 把 某 种 神经 元 参 
数 作为 目标 ， 而 迭代 出 能 够 让 对 应 神经 元 参数 达到 最 
高 激活 度 的 图 像 呢 ? 

如 图 12-80 所 示 ， 首 先生 成 一 幅 图 中 左上 角 的 随 
机 像素 图 片 ， 也 就 是 模拟 电视 当 没 有 信号 输入 时 ， 
电子 枪 接收 到 的 是 一 些 随机 的 噪声 信号 ， 于 是 显示 


#125 Уши 21473 Es 


屏 上 就 会 显示 出 类 似 图 像 。 然 后 ， 将 该 图 像 载 入 某 
个 训练 好 的 卷 积 神经 网 络 ， 你 会 发 现 此 时 神经 网 络 
的 各 类 别 输出 值 可 能 大 致 均匀 ， 也 就 是 无 法 判断 属 
于 某 一 类 ， 只 能 判断 为 激活 值 最 高 的 那个 类 ， 但 是 
没有 意义 。 然 后 ， 我 们 尝试 改变 这 幅 图 像 中 的 像素 
然后 输入 到 网 络 识别 ， 直 到 该 图 像 成 功 地 让 某 个 或 
者 某 些 神经 元 的 激活 值 达到 最 高 ， 从 而 看 看 这 些 神 
经 元 到 底 在 识别 一 些 什么 东西 ， 这 个 过 程 与 训练 过 
EMH, BERBER, RRL SER f) А 
标 是 让 分 类 误 判 率 最 低 ， 而 本 过 程 则 是 让 某 个 神经 
元 激活 值 最 高 。 于 是 有 了 图 中 右 侧 列 出 的 一 系列 图 
像 ， 可 以 看 到 还 是 有 些 神奇 和 不 可 思议 的 ， 可 以 明 
Ен, ИИ, АЖА АЙ EAR 
尤其 清晰 可 辨 。 
这 些 图 片 辨识 度 还 是 不 太 好 ， 后 来 有 人 采用 了 
些 后 处 理 手 段 〈 比 如 Regularization， 正 则 化 ) 处 理 这 
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图 12-80 


经 过 训练 得 到 能 够 让 某 些 特定 神经 元 激活 的 图 片 
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些 图 像 ， 得 到 了 一 些 更 加 易 辨 识 的 风格 ， 如 图 12-81 
所 示 。 这 些 图 像 也 就 是 图 12-79 右 下 角 所 示 的 风格 ， 
尝试 把 最 终 输出 层 中 用 于 判断 某 个 类 别 的 神经 元 激 
活 值 激励 到 最 高 ， 在 这 个 摸索 过 程 中 迭代 找 出 最 终 
图 像 。 

利用 这 种 处 理 手 段 ， 如 果 把 神经 网 络 中 每 一 层 选 
代 出 来 的 图 像 都 处 理 一 下 ， 效 果 如 图 12-82 所 示 。 

上 述 这 种 技术 最 后 被 人 们 发 挥 了 一 下 ， 成 了 一 种 
利用 神经 网 络 来 作画 的 手段 ， 被 称 为 Deep Art， 相 当 
于 把 神经 网 络 想 看 到 的 东西 欠 代 出 一 个 大 致 框架 ， 然 
后 再 经 过 一 些 加强 处 理 ， 最 后 形成 了 一 幅 幅 印象 派 画 
作 ， 如 图 12-83 所 示 。 

有 人 还 玩 出 了 新 花样 ， 干 脆 找 一 张 现实 中 的 任 
意 照 片 输送 到 某 个 训练 好 的 、 能 够 识别 相当 数量 不 
同 物体 的 神经 网 络 中 ， 这 张 照片 内 虽然 有 可 能 不 包 
含 任何 能 够 导致 神经 网 络 强 激活 的 物体 ， 但 是 前 文 
中 提 到 过 ， 任 意图 片 其 实 都 可 以 导致 神经 网 络 中 部 
分 神经 元 激活 到 一 定 程度 ， 只 是 没 那么 强烈 而 已 。 
比如 输入 的 是 一 张 云 彩 的 照片 ， 可 能 某 休 云彩 像 一 
只 鸟 ， 那 么 神经 网 络 感受 鸟 的 神经 元 就 会 有 一 定 程 
度 的 激活 。 如 果 将 对 应 的 激活 值 人 为 放大 ， 强 行将 
它 激活 到 某 个 较 高 程度 的 话 ， 那 么 只 要 再 以 这 个 激 
活 值 为 目标 ， 不 断 改变 原始 图 片 中 像素 的 值 ， 让 该 
神经 元 的 激活 值 达到 要 求 就 可 以 迭代 出 一 张 在 原始 
图 片 相 应 位 置 上 出 现 了 该 神经 网 络 之 前 所 学 习 到 的 
某 物 体 或 者 多 个 物体 的 各 种 扭曲 组 合 图 形 的 最 终 合 
成 图 片 ， 当 然 ， 还 需要 一 定 的 处 理 才 能 看 上 去 更 加 
艺术 化 一 些 。 这 种 技术 被 称 为 Deep Dream。 如 图 
12-84 所 示 ， 照 片 中 的 树 的 轮廓 导致 某 网 络 中 识别 
某 栋 与 树 相 似 轮 廓 的 建筑 的 神经 元 被 激活 到 一 定 程 
度 ， 遂 将 其 放大 ， 然 后 迭代 出 一 幅 建筑 物 图 片 ， 和 登 
加 到 原 图 ， 其 他 图 片 也 是 同样 过 程 。 利 用 这 个 手段 
合成 的 图 片 过 渡 自 然 ， 因 为 是 以 像素 为 粒度 迭代 
的 ， 体 现 出 巧夺天工 的 美妙 。 一 些 图 片 制作 工具 中 
其 实 也 带 有 类 似 处 理 模块 ， 其 可 能 会 采用 一 些 封装 
好 的 固定 算法 模型 ， 而 不 是 通过 神经 网 络 去 迭代 ， 
后 者 其 实 是 一 种 非常 无 脑 化 的 操作 手法 。 

利用 Deep Dream 技 术 ， 可 以 合成 更 多 美妙 的 画 
作 ， 如 图 12-85 所 示 。 也 可 以 合成 一 些 比较 荒诞 的 图 
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片 ， 如 图 12-86 所 示 〔 神 经 耐 受 力 差 以 及 密集 恐惧 症 
读者 可 能 会 感到 不 适 ， 请 适度 观看 ， 对 此 可 能 导致 的 
食欲 不 振 精 神 萎靡 冬瓜 哥 概 不 负责 ) 。 好 吧 ， 神 经 网 
络 已 经 被 玩 坏 了 。 扫 图 12-86 中 的 二 维 码 可 观看 利用 
Deep Dream 处 理 后 的 荒诞 视频 。 

除了 Deep Dream 之 外 ， 还 有 一 种 被 称 为 Deep 
Style 的 技术 。 它 能 将 一 幅 图 片 风格 作用 到 另 一 幅 风格 
完全 不 同 的 图 片上 让 后 者 也 体现 出 前 者 的 风格 ， 如 图 
12-87 所 示 。 

这 种 处 理 方式 好 像 很 难 参透 其 原理 ， 不 妨 这 样 来 
理解 : 如 果 能 够 将 待 处 理 图 片 a 的 风格 量化 成 某 个 值 
A， 而 将 图 片 b 的 风格 量化 成 B， 那 么 只 要 不 断 迭 代 地 
改变 a 图 片 中 像素 的 值 让 A 接近 B， 那 么 待 处 理 的 图 片 
a 风格 最 终 就 会 被 改变 得 与 6 接近 ， 也 就 是 说 还 是 采用 
梯度 下 降 法 来 让 神经 网 络 和 迭代 处 理 原 始 图 片 。 但 是 如 
果 只 确定 了 该 目标 ， 那 么 很 有 可 能 最 后 待 处 理 图 像 a 
会 被 直接 改 为 b，a 的 原 有 内 容 丧 失 列 尽 ， 最 终 图 片 中 
就 很 难看 出 a 的 原始 轮廓 痕迹 。 所 以 还 需要 加 另 一 个 
目标 ， 也 就 是 让 图 片 a 的 内 容 损 失 也 尽 可 能 小 ， 把 这 
两 个 目标 相 加 作为 最 终 的 梯度 下 降 迭 代目 标 就 可 以 生 
成 符合 要 求 的 混 等 图 片 。 那 么 ， 待 处 理 图 片 原 有 的 
内 容 应 该 如 何 量化 ? 原 有 内 容 其 实 就 是 待 处 理 图 片 
的 原始 特征 图 ， 尽 量 保障 这 个 特征 图 的 变化 率 不 超 
过 30%、50% 或 者 80% 等 ， 具 体 可 接受 值 取决 于 你 自 
aT. 

那么 “风格 ”这 种 东西 又 应 该 如 何 去 量 化 ? 试 
想 一 下 ， 所 谓 风格 ， 其 实 并 不 是 把 自己 和 别人 比 ， 
而 是 自己 内 部 所 有 特征 之 间 的 某 种 内 在 关联 ， 自 成 
一 派 之 后 ， 也 自然 就 能 与 其 他 事物 区 分 开 来 ， 便 形 
成 了 自己 的 风格 。 风 格 完全 是 自己 的 事 ， 与 别人 无 
关 ， 也 不 用 和 别人 比 ， 和 别人 比 证 明 你 不 想 有 自己 
的 风格 。 就 拿 相貌 来 说 ， 你 不 能 拿 着 你 的 眼睛 所 在 
的 位 置 ， 和 别人 的 鼻子 所 在 的 位 置 相 混搭 ， 而 是 要 
测量 自己 眼睛 到 鼻子 的 距离 ， 这 才 是 你 自己 的 长 相 
风格 。 再 比如 一 幅 实际 照片 和 卡通 照片 风格 〈 比 如 
图 8-116) ， 如 果 拿 自己 和 自己 比 ， 则 卡通 图 中 会 
包含 大 片 同样 颜色 的 区 域 ， 而 实际 照片 明暗 错落 有 
致 ， 有 明确 的 光照 感 ， 而 且 每 个 像素 颜色 几乎 都 是 
不 同 的 ， 有 很 多 细腻 纹理 。 
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图 12-81 经 过 特殊 处 理 之 后 的 图 像 
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图 12-85 ”利用 Deep Dream 手 


MATAIRA, KA THRE (Gram 
Matrix) 来 对 一 个 事物 内 在 的 关联 进行 量化 ， 如 图 
12-88 所 示 。 格 拉 姆 矩阵 是 将 某 个 向 量 〈 用 于 处 理 
Deep Style 时 该 向 量 就 是 指 某 个 或 者 某 几 个 卷 积 层 的 
特征 图 ) 中 的 每 个 点 两 两 相 乘 。 


(Z1, Zn) 
(zz, Zn) 


(1,21). (21,22) ... 


(z2,21) (22,22) ... 
С(а1,...,та) = 


(2,11) (тазт) ... (тауға) 


图 12-88_ 格 拉 姆 矩阵 

在 卷 积 神经 网 络 生成 的 特征 图 中 ， 每 个 像素 其 
实 都 来 自 于 某 个 特定 卷 积 核 在 特定 位 置 的 卷 积 ， 因 此 
每 个 像素 值 就 代表 着 某 个 特征 的 强度 ， 而 格拉 姆 矩阵 
计算 的 实际 上 是 所 有 特征 两 两 之 间 的 相关 性 ， 哪 两 个 
特征 是 同时 出 现 的 ， 哪 两 个 是 此 消 彼 长 的 ， 等 等 。 同 
时 ， 格 拉 姆 矩阵 中 的 对 角 线 元 素 还 体现 了 每 个 特征 在 
图 像 中 出 现 的 量 ， 因 此 格拉 姆 矩阵 描述 的 是 整个 图 像 
的 大 体 风 格 。 总 之 ， 格拉 姆 矩阵 用 于 度量 各 个 维度 自 
己 的 特性 以 及 各 个 维度 之 间 的 关系 。 内 积 之 后 得 到 的 
多 尺度 矩阵 中 ， 对 角 线 元 素 提供 了 不 同 特征 图 各 自 的 
信息 ， 其 余 元 素 提供 了 不 同 特征 图 之 间 的 相关 信息 。 
最 终 ， 格 拉 姆 矩阵 既 能 体现 出 事物 有 哪些 特征 ， 又 能 
体现 出 事物 不 同 特征 间 的 紧密 程度 。 有 了 表示 风格 的 
格拉 姆 矩阵 ， 只 需 比较 两 个 图 片 各自 的 格拉 姆 矩阵 的 
差异 即 可 判别 出 两 幅 图 像 的 风格 差异 了 。 

下 面 来 欣赏 一 下 某 人 的 Deep Style 风 格 的 变换 图 
例 ， 如 图 12-89 所 示 。 这 些 图 样 是 利用 云端 deepartio 网 
站 后 台 的 神经 网 络 迭 代 而 成 的 ， 大 家 可 以 访问 该 网 站 
来 体验 一 下 。 

对 图 像 的 这 种 处 理 手 段 ， 一 样 可 以 用 于 对 音频 
的 处 理 ， 数 字音 频 与 图 像 的 本 质 类 似 ， 都 是 一 堆 样本 
点 组 成 的 向 量 ， 只 不 过 音频 样本 点 是 流 式 的 节奏 ， 通 
过 有 规律 的 振幅 变化 刺激 大 脑 ， 大 脑 从 当前 振幅 与 上 
一 个 振幅 的 跌宕 起 伏 中 感受 到 愉悦 。 而 图 像 也 是 通过 
振幅 变化 (像素 之 间 的 变化 梯度 ) 刺激 大 脑 ， 只 不 过 
是 一 次 性 输入 的 ， 更 有 全 局 感 。 所 以 语音 和 图 像 在 处 
理 方式 上 就 有 一 些 区 别 ， 比 如 经 常 采 用 循环 神经 网 络 


12-89 ” 某 眼 镜 男 照片 的 Deep Style 变 换 图 片 
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(Recurrent Neural Network，RNN) 将 输出 结果 反馈 
到 输入 来 训练 ， 因 为 音符 流 之 间 显然 是 有 某 种 内 在 联 
系 的 ， 就 像 图 片 的 每 个 像素 之 间 内 在 关系 体现 为 该 图 
片 的 整体 风格 一 样 ， 需 要 用 上 一 个 音符 作为 输入 而 迭 
代 出 下 一 个 音符 。 


看 到 这 里 你 是 否 感觉 本 书 之 前 某 个 地 方 似 曾 相 
识 ? 还 记得 第 4 章 中 介绍 过 的 分 支 预测 技法 么 ? 其 
中 最 高 级 的 一 种 是 利用 历史 跳 转 的 “范式 ”来 预测 
本 次 跳 转 指令 是 否 会 跳 转 (4.3 节 最 后 部 分 ) 。 这 
个 “范式 ”其 实 就 是 历史 跳 转 模式 的 一 种 特征 ， 与 
前 文中 用 卷 积 核 抓 取 的 特征 其 实 本 质 上 是 一 样 的 意 
思 ， 只 不 过 这 个 范式 的 形成 是 一 种 积累 的 过 程 ， 也 
就 是 上 一 步 的 输出 结果 会 影响 后 续 的 预测 走向 ， 这 
就 是 RNN 的 思想 。RNN 更 能 抓 取 一 些 时 序 上 的 动态 
特征 ， 而 无 反馈 的 神经 网 络 抓 取 的 只 是 静态 特征 。 
从 某 种 意义 上 说 ，CPU 内 部 的 分 支 预测 模块 也 是 一 
种 机 器 学 习 ， 只 不 过 它 学 习 的 是 指令 流 ( 可 以 看 作 
一 个 一 维 向 量 ) 中 的 单一 特征 ， 而 且 预 测 结果 只 有 
两 个 类 别 : 跳 或 者 不 跳 ， 这 就 使 得 其 实现 相 比 神经 
网 络 而 言 可 以 被 更 加 简化 。 它 用 来 记录 跳 转 范式 的 
表 与 神经 网 络 有 类 似 功 效 ， 但 是 后 者 采用 权重 乘 加 
方式 去 感知 足够 连续 变化 的 信号 范围 ， 而 前 者 由 于 
只 有 两 个 类 别 ， 就 好 办 多 了 ， 直 接 将 历史 信号 编码 
到 范式 码 中 就 可 以 了 。 


同样 的 事情 和 原理 其 实 也 发 生 在 用 于 高 速 接口 信 
号 均衡 处 理 领域 ， 比 如 各 种 反馈 均衡 器 ， 就 是 基于 数 
据 流 中 的 历史 数据 计算 出 这 些 数 据 对 当前 传送 的 数据 
信号 的 影响 ， 然 后 利用 各 种 权重 调制 出 一 个 振幅 有 登 加 
到 当前 传送 的 数据 上 ， 从 而 平 抑 掉 这 些 影响 ， 第 7 章 
中 也 提 到 过 。 那 么 ， 人 们 是 如 何 确定 历史 信号 对 当前 
信号 的 影响 程度 如 何 的 呢 ? 其 实 答案 你 可 能 已 经 知道 
了 ， 那 就 是 通过 训练 。 如 图 12-90 所 示 为 一 个 DFE 类 型 
的 信号 均衡 器 ， 可 以 看 到 其 将 线路 上 曾经 传递 过 的 多 
个 信号 〈 每 个 被 称 作 一 个 抽 头 ，Tap) 保存 下 来 Ой 
过 数字 信和 号 或 者 模拟 信号 锁 存 器 ) ， 然 后 分 别 与 权重 
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相 乘 〈 采 用 模拟 乘法 器 或 者 数字 乘法 器 ) ， 并 与 当前 
信号 县 加 模拟 或 者 数字 加 法 器 〉 来 调制 当前 信号 振 
幅 。 通 过 不 断 的 迭代 ， 让 信号 误 码 率 达到 最 低 ， 此 时 
的 权重 对 应 的 就 是 最 佳 参数 。 第 7 章 中 也 曾 提 到 过 高 
速 信号 通信 双方 底层 电路 在 加 电 后 会 有 一 个 链 路 训练 
的 过 程 ， 其 本 质 思想 与 机 器 学 习 中 的 训练 别 无 二 致 。 

使 用 神经 网 络 也 可 以 把 一 些 歌曲 混 肥 之 后 迭代 出 
独特 味道 的 曲目 ， 也 可 以 把 一 首 曲子 的 风格 映射 到 另 
一 首 曲子 上 ， 至 于 这 些 机 器 创作 出 来 的 曲子 听 上 去 是 
什么 感觉 ， 大 家 可 以 自行 到 互联 网 上 探索 了 。 

如 果 站 在 更 高 层 来 俯 欧 的 话 ， 对 信息 信号 的 抽象 
和 处 理 ， 其 实 是 一 门 比较 有 意思 的 学 科 ， 只 不 过 我 们 
经 常 把 有 意思 的 东西 搞 成 了 枯燥 无 比 ， 经 常 图 省 事 想 
用 直升机 把 人 们 直接 带 到 高 处 去 俯 欧 ， 而 懒得 去 带领 
人 们 重 走 前 人 的 路 ， 然 后 期 望 人 们 能 更 快速 的 掌握 这 
门 技术 。 有 些 知识 本 身 已 经 是 极度 抽象 ， 把 抽象 再 抽 
象 一 次 给 人 介绍 ， 那 简直 反 人 类 。 

如 前 文 所 述 ， 标 准 答案 只 有 一 个 ， 但 是 正确 答 
案 可 能 有 多 个 。 如 果 把 如 图 12-91 所 示 的 图 片 输入 
给 神经 网 络 ， 竟 然 会 被 高 概率 地 判别 为 图 中 文字 对 
应 的 物品 ， 而 事实 上 却 显然 不 是 。 这 似乎 表明 ， 神 
经 网 络 所 识别 的 特征 还 是 有 些 局 部 性 ， 没 有 将 更 多 
特征 有 机 地 组 合 起 来 ， 这 可 能 受 限于 神经 元 的 数量 
和 当前 的 算 力 ， 以 及 对 模型 的 优化 ， 过 拟 合 问题 是 
个 难点 。 相 比 人 脑 神 经 元 细胞 百 亿 级 的 数量 而 言 
计算 机 模拟 出 来 的 神经 网 络 可 能 毕竟 只 是 在 模拟 ， 
它 可 以 做 到 人 脑 做 不 到 的 事情 ， 比 如 似乎 拥有 比 人 
脑 大 得 多 的 记忆 空间 和 更 快 的 访问 速度 ， 让 它 可 以 
在 围棋 这 种 场景 下 发 挥 出 战胜 人 脑 的 优势 ， 但 是 目 
前 其 还 达 不 到 人 脑 更 高 层 的 抽象 比如 各 种 说 不 清道 
不 明 的 情感 、 第 六 感 等 。 但 是 冬瓜 哥 坚 信 一 点 ， 人 
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脑 本 质 上 也 是 一 台 计算 机 ， 只 不 过 其 利用 了 自然 所 
馈赠 的 超 强 算 力 ， 借 助 算 力 的 支撑 ， 高 度 抽 象 成 为 
可 能 。 

最 后 看 一 下 图 12-92， 其 给 出 了 对 单 层 分 类 器 、 
多 层 分 类 器 (深度 神经 网 络 ) 、 卷 积 神经 网 络 形象 的 
展示 。 神 经 网 络 学 习 到 的 知识 ， 都 被 抽象 为 深层 神经 
元 中 保留 的 点 滴 学 识 ， 这 些 学 识 以 及 经 验 以 大 量 神经 
元 的 激活 权重 的 形式 记忆 在 网 络 中 。 

看 到 这 个 图 你 会 不 会 有 些 思 维 火花 ? 图 中 的 神经 
元 比较 像 光 导 纤 维 ， 光 线 从 纤维 的 一 端 射出 去 ， 所 以 
这 一 端 比较 亮 。 实 际 上 ， 如 果 能 够 直接 用 光学 滤 镜 ， 
加 上 某 种 设计 好 的 光路 对 图 像 做 卷 积 ， 那 就 不 需要 将 
像素 转换 为 数字 量化 值 ， 再 载 入 数字 电路 来 运算 了 ， 
而 是 可 以 直接 采用 可 调 参数 的 模拟 光学 运算 器 件 ， 以 
光速 运算 ， 此 时 这 种 模拟 人 脑 的 神经 网 络 的 算 力 就 可 
以 得 到 很 大 的 释放 ， 有 可 能 会 有 不 一 样 的 景象 。 关 于 
模拟 光学 器 件 的 介绍 参见 本 书 尾声 部 分 ， 不 过 你 可 以 
隐约 感觉 到 ， 液 晶 面板 不 就 是 一 个 可 调 参 数 的 每 个 
像素 点 的 颜色 值 都 可 调 ， 通 过 调整 偏振 度 实现 ) 滤 镜 
么 ， 可 以 用 它 来 做 卷 积 核 ， 关 键 是 找到 一 个 可 调 参数 
的 能 够 对 多 路 光线 强度 各 自 与 权重 相 乘 再 相 加 操作 的 
光学 模拟 信号 乘 加 器 。 

本 节 结 束 时 ， 冬 瓜 哥 观察 每 个 人 不 再 是 人 了 ， 而 
是 一 堆 神经 元 细胞 和 一 堆 缠 绕 在 一 起 并 高 速 拌 动 中 的 
神经 ， 就 像 冬 瓜 哥 曾经 趴 在 显示 器 上 看 像素 点 三 原色 
一 样 。 有 些 人 的 神经 高 速 拌 动 ， 不 断 调整 兴奋 值 试 图 
理解 和 思考 他 /她 当时 接收 到 的 图 像 和 声音 输入 ， 耳 聪 
目 明 。 有 些 人 则 目光 呆滞 ， 对 外 界 响 应 免疫 ， 自 己 醉 
在 了 某 个 私有 世界 ， 坚 定 地 用 自己 创造 的 输入 迭代 自 
己 的 思维 。 

我 现在 看 到 婴儿 和 幼儿 ， 在 观察 他 /她 可 爱 的 表 
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图 12-91 


很 容易 让 神经 网 络 误 判 的 图 像 


图 12-92 


情 、 动 作 和 言语 的 同时 ， 除 了 感觉 一 阵 暖 流 不 由 自主 
地 让 脸 上 麻木 的 肌肉 变 成 和 他 /她 们 同步 之 外 ， 还 在 
试图 想象 他 /她 们 大 脑 中 的 神经 元 细胞 在 视网膜 和 耳 
膜 接受 到 的 信息 的 刺激 下 ， 正 在 不 断 地 分 裂 、 联 结 、 
传导 信号 、 改 变 激活 水 平 。 同 时 我 也 陷入 了 深 深 的 忧 
虑 和 焦虑 中 ， 每 个 孩子 受 先天 基因 影响 ， 神 经 元 结构 
会 有 天 生 的 差异 ， 就 像 图 12-65 一 图 12-68 中 所 示 的 那 
样 ， 先 天 的 优异 和 不 足 是 无 法 控制 的 。 但 是 先天 不 足 
的 神经 元 网 络 如 果 有 了 痕 力 这 个 天 赋 的 话 ， 也 可 以 殊 
途 同 归 ， 而 毅力 只 是 一 种 表象 ， 其 可 能 源 自 更 底层 的 
特质 ， 比 如 天 生 钻 牛角 尖 和 偏执 一 些 的 性 格 ， 这 种 偏 
执 可 能 源 自 更 底层 的 好 奇 心 以 及 神经 元 对 好 奇 心 的 不 
可 道 反馈 放大 ， 这 可 能 是 坑 力 的 源泉 。 而 我 还 记得 中 
学 的 时 候 被 老师 说 过 不 知道 多 少 次 “不 要 死 钻 牛角 
尖 ”， 幸 亏 我 当时 的 神经 元 不 由 自主 地 拒绝 了 这 个 建 
议 ， 可 能 我 的 行为 被 不 可 逆 的 神经 元 反馈 完全 控制 
了 ， 所 谓 本 性 难 移 吧 ， 现 在 遇 到 不 求 甚 解 的 人 反而 有 
点 儿 不 以 为 然 。 我 自己 也 经 历 了 不 怕 钻 ， 钴 不 怕 ， 怕 
不 钻 的 阶段 ， 或 许 后 续 还 会 进入 爱 钻 不 钻 的 阶段 吧 。 


单 层 分 类 器 、 多 层 分 类 器 (深度 神经 网 络 ) 、 卷 积 神经 网 络 效果 图 


千差万别 的 环境 会 对 同一 个 大 脑 训 练 出 不 同 的 结 
果 ， 所 谓 近 朱 者 赤 近 墨 者 黑 ， 在 一 个 充斥 着 谎言 的 环 
境 下 是 很 难 训练 出 高 尚 的 大 脑 的 ， 你 要 么 远离 ， 要 么 
出 淤泥 而 不 染 地 死 撑 ， 要 么 同 流 合 污 。 同 时 我 也 一 直 
在 思考 如 何 培养 自己 的 孩子 在 这 种 环境 下 建立 足够 强 
大 的 内 心 来 抵御 各 种 恶魔 和 心 魔 的 侵袭 ， 一 旦 后 续 她 
遇 到 了 这 种 环境 ， 希 望 被 强 激活 的 是 底线 、 理 想 、 坚 
持 这 三 组 神经 元 。 


12.8 ”具体 实现 : 搭 台 唱 戏 和 硬 功夫 


现在 思考 一 下 如 何 将 本 章 前 文中 介绍 的 这 一 系 
列 的 模型 使 用 计算 机 程序 来 实现 。 首 先 想 一 下 神经 元 
是 个 什么 东西 ? 它 是 个 生物 细胞 ， 它 是 纸 上 的 一 个 小 
圆圈 ， 但 是 很 显然 它 在 计算 机 里 分 明 就 是 位 于 内 存 中 
的 一 段 代 码 ， 这 段 代 码 本 质 上 就 是 一 个 实现 乘 加 的 
函数 ， 比 如 multi add(nt x, int wx, int y, int wy, int bias) 
(return xXwxtyXwy+tbias}。 如 果 用 纯 硬 件 实现 ， 那 
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么 它 是 硬件 中 的 一 个 乘 加 电路 单元 ， 也 就 是 两 个 两 输 
入 乘法 器 和 一 个 三 输入 加 法 器 。 

那么 神经 网 络 又 是 什么 ? 它 之 前 是 画 在 纸 上 或 者 
PPT 里 的 图 形 ， 只 是 个 用 于 展示 神经 运算 场景 和 流程 
的 模型 。 现 在 要 实现 这 个 模型 ， 可 以 采用 生物 细胞 真 
的 搭建 出 一 个 神经 网 络 ， 不 过 那 是 造物 者 的 设计 。 我 
们 要 做 的 是 在 计算 机 内 存 里 用 程序 来 搭建 这 个 模型 ， 
比如 搭建 一 个 卷 积 神经 网 络 出 来 。 

对 一 张 图 片 做 卷 积 的 过 程 ， 体 现 为 代码 的 话 ， 那 
就 是 编写 一 个 专门 做 卷 积 的 函数 ， 该 函数 可 以 对 任意 
大 小 的 图 片 窗口 ， 使 用 任意 大 小 的 卷 积 核 做 卷 积 ， 我 
想 这 个 函数 读者 自己 都 能 编写 出 来 ， 无 非 就 是 两 两 相 
乘 再 相 加 。 由 于 需要 对 图 片 多 个 位 置 做 多 次 卷 积 ， 所 
以 该 函数 内 部 需要 使 用 循环 来 实现 。 

做 完了 卷 积 需要 做 池 化 、ReLU 等 操作 ， 这 些 操 
作 各 自 也 可 以 编写 一 个 函数 分 别处 理 ， 然 后 可 以 将 卷 
积 、 池 化 、ReLU 三 个 函数 放 在 一 个 大 函数 里 依次 调 
用 。 该 函数 输出 的 是 多 个 特征 图 数组) 。 然 后 再 将 
生成 的 特征 图 数组 继续 循环 调用 上 述 函数 做 多 轮 操作 
生成 最 终 的 特征 图 。 至 于 全 连接 层 ， 那 无 非 也 是 一 堆 
乘 加 操作 ， 没 什么 难度 。 

上 述 过 程 好 像 都 不 是 什么 问题 ， 问 题 是 上 述 过 程 
并 不 是 固定 的 ， 而 必须 是 动态 可 变 的 。 在 12.7 节 刚 开 
始 就 看 到 了 ， 对 于 全 连接 层 ， 不 同 的 隐藏 层 数量 、 每 
层 中 不 同 的 神经 元 数量 、 不 同 的 输入 值 预 处 理 〈 高 次 
项 ) 会 导致 差异 很 大 的 训练 结果 。 既 然 如 此 ， 就 必须 
提供 一 种 机 制 ， 能 够 让 用 户 自行 定义 网 络 模型 ， 包 括 
层 数 、 神 经 元 个 数 、 卷 积 核 大 小 、 卷 积 方式 、 采 用 何 
种 激励 函数 、 和 迭代 次 数 等 。 

所 以 读者 可 以 想象 ， 有 一 个 图 形 界面 ， 给 出 一 
些 下 拉 框 ， 让 用 户 来 选择 对 应 的 网 络 模型 中 的 各 种 参 
数 ， 然 后 选择 待 输 入 的 训练 样本 数据 ， 然 后 选择 对 这 
些 样本 做 怎样 的 预 处 理 等 。 而 这 个 界面 将 用 户 选择 的 
这 些 参 数落 地 到 底层 的 函数 调用 参数 ， 然 后 调用 相应 
函数 进行 运算 。 实 际 上 很 多 场景 下 用 户 并 不 需要 一 个 
图 形 界面 来 进行 训练 或 者 模式 识别 ， 而 是 想 把 这 些 参 
数 以 及 流程 步骤 直接 用 代码 的 方式 呈现 出 来 ， 这 样 易 
于 与 其 他 程序 对 接 调用 。 

另外 可 以 想象 的 是 ， 由 于 训练 过 程 的 运算 量 非 
常 巨 大 ， 如 何 充分 利用 多 线程 来 高 效 地 加 速 计 算 ， 是 
机 器 学 习 场景 下 的 核心 关键 问题 。 如 果 你 仔细 阅读 过 
第 9 章 的 话 ， 现 在 应 该 已 经 知道 解决 办 法 了 ， 那 就 是 
采用 并 行 计算 架构 来 加 速 计算 。 比 如 OpenMP 这 套 并 
行 计算 框架 ， 可 以 傻瓜 式 地 把 适合 并 行 计算 的 部 分 ， 
比如 大 数据 量 的 矩阵 迭代 运算 自动 采用 多 线程 来 运 
行 ， 而 用 户 在 代码 中 只 需要 增加 一 条 编译 制导 提示 语 
旬 就 可 以 了 。 不 过 OpenMP 只 支持 共享 内 存 架构 ， 对 
于 GPU、 各 种 其 他 运算 加 速 器 、 通 过 外 部 网 络 互 连 的 
集群 (超级 计算 机 〉 等 这 些 加 速 手 段 并 不 支持 。 实 际 
上 ， 上 面 这 些 加 速 计算 系统 各 自 都 有 偏 底 层 程序 接口 


可 供 调 用 来 加 速 运算 ， 比 如 CUDA 库 、MPI 库 ， 这 两 
个 在 第 9 章 已 经 充分 介绍 过 ， 对 于 第 三 方 专用 ASIC/ 
FPGA 加 速 芯片 ， 它 们 一 般 也 提供 自己 的 库 供 上 层 调 
用 。 为 了 支持 深度 学 习 场景 ， 有 些 加 速 器 厂商 自己 又 
用 底层 库 封 装 出 上 层 库 ， 比 如 cuDNN 就 是 基于 CUDA 
封装 出 的 供 深度 学 习 场 景 使 用 的 函数 库 ， 其 中 的 每 个 
库 函 数 都 是 深度 学 习 场景 下 所 需 的 某 个 运算 过 程 的 
封装 。 

至 此 你 自然 会 想到 ， 能 否 有 一 种 再 高 一 层 的 通 
用 上 层 框架 ， 能 够 广泛 支持 各 种 加 速 器 ， 而 且 方 便 后 
续 新 的 加 速 器 将 它们 底层 的 操作 函数 注册 到 这 个 框架 
里 。 比 如 假设 该 框架 针对 上 层 提 供 convO 函 数 接口 ， 
底层 的 加 速 器 将 自己 的 操作 函数 注册 到 一 个 结构 体 中 
供 conv0 回 调 〈 回 调 函 数 相关 介绍 见 第 10 章 ) 。 用 户 
直接 在 代码 中 调用 conv(0) 函 数 ， 并 指定 采用 CPU 还 是 
GPU 亦 或 是 其 他 某 某 PU (Processing Unit) ， 然 后 该 
框架 自动 调用 对 应 加 速 器 的 conv0 回 调 函 数 ， 于 是 就 
可 以 将 数据 下 发 给 该 加 速 器 来 运算 。 

由 于 在 训练 神经 网 络 时 所 需 的 算 力 非常 惊人 ， 
再 加 上 目前 移动 终端 、 互联 网 非常 发 达 ， 而 且 5G 
时 代 已 经 到 来 ， 互 联网 服务 提供 商 们 每 天 会 收集 大 
量 的 数据 ， 对 这 些 数 据 进行 回 归 分 析 、 逻 辑 分 类 、 
决策 支持 等 过 程 所 要 求 的 速度 也 越 来 越 高 。 有 时 候 
一 块 GPU 根 本 满足 不 了 需求 ， 需 要 一 台 服务 器 上 插 
几 块 甚至 十 几 块 GPU， 更 有 甚 者 ， 需 要 几 十 上 百 块 
GPU， 此 时 就 需要 使 用 多 台 服 务 器 通过 网 络 连接 起 
来 ， 每 台 服务 器 上 采用 CPU、GPU 联 合 开火 才能 满 
足 需求 。 

你 又 会 想到 ， 如 果 这 个 上 层 框架 可 以 自动 将 任务 
分 发 给 本 机 的 CPU、GPU 以 及 网 络 远程 机 器 的 CPU、 
GPU 同时 运算 的 话 ， 其 扩展 性 就 更 强 了 ， 而 且 最 好 完 
全 向 用 户 屏蔽 底层 的 这 些 加 速 器 以 及 跨 网 络 传输 数据 
的 具体 过 程 ， 最 好 是 让 用 户 通过 调用 几 个 接口 函数 ， 
指定 若干 参数 ， 就 可 以 完成 训练 。 

目前 存在 多 种 上 层 机 器 学 习 编 程 框架 ， 比 如 
TensorFlow、Caffe/Caffe2、Torch/PyTorch、CNTK 等 。 
如 图 12-93 所 示 为 各 种 机 器 学 习 编 程 平台 框架 的 对 比 。 
这 些 框架 中 以 TensorFlow 为 典型 代表 ， 因 为 其 当初 是 谷 
歌 内 部 自用 的 机 器 学 习 框架 ， 后 来 被 谷歌 开源 ， 而 鉴 
于 谷歌 在 业界 的 地 位 ， 大 家 也 便 自 觉 靠 拢 了 。 

Tensor 是 “ 张 量 ”的 意思 ， 张 量 在 数学 上 有 明确 
的 定义 ， 不 过 你 可 以 将 它 理解 为 一 个 多 维 数组 ， 由 于 
输入 深度 神经 网 络 的 样本 在 被 一 层 层 处 理 的 时 候 ， 会 
产生 更 多 维度 比如 多 个 不 同 卷 积 核 处 理 之 后 的 特征 
图 、 红 绿 蓝 三 色 通 道 图 片 各 自 产 生 的 处 理 之 后 的 特征 
图 等 ) ， 所 以 认为 这 些 待 处 理 的 数据 属于 张 量 。 张 量 
在 神经 网 络 内 一 层 层 被 处 理 ， 便 是 TensorFlow 这 个 名 字 
的 含义 。 

图 12-93 右 侧 所 示 为 TensorFlow 的 层次 框架 示意 
图 ， 位 于 最 顶层 的 是 应 用 层 ， 用 户 通过 TensorFlow 


提供 的 函数 库 编写 自己 的 训练 或 者 推理 应 用 ; 
再 往 下 一 层 就 是 各 种 编程 语言 适 配 层 ， 目 前 
TensorFlow 支 持 Python 和 C++ 两 种 语言 来 编写 
程序 ， 提 供 对 应 的 编译 器 。 再 往 下 一 层 则 是 
TensorFlow 库 内 部 采用 的 C 语 言 的 API 与 下 层 模 
块 对 接 。TensorFlow 支 持 分 布 式 部 署 到 计算 机 
集群 中 来 实现 并 行 计算 ， 所 以 集群 中 每 台 计 算 
机 上 会 有 一 个 Distributed Master 模 块 用 于 接收 
Master 节 点 以 及 其 他 节点 发 来 的 计算 任务 和 数 
据 ， 并 调用 本 地 的 Dataflow Executor 来 执行 具 
体 的 运算 ， 后 者 再 向 下 调用 具体 的 核 函数 〈 比 
如 卷 积 、 池 化 、 矩 阵 乘 、ReLU 等 函数 ) 来 实 
现 对 数据 的 最 终 运 算 处 理 ， 这 些 核 函 数 可 以 采 
用 CPU 或 GPU 或 者 其 他 加 速 器 来 运算 ， 对 应 的 
加 速 器 只 需要 将 自己 的 用 于 实现 某 种 运算 的 核 
函数 注册 到 TensorFlow 提 供 的 框架 中 成 为 回调 
函数 ，TensorFlow 遇 到 对 应 运算 时 就 可 以 调用 
这 些 第 三 方 加 速 运算 函数 进行 运算 了 。 在 第 9 
章 中 介绍 过 ， 并 行 运算 集群 节点 间 难 免 会 传递 
各 种 数据 和 状态 信息 ，TensorFlow 在 底层 为 集 
群 节点 之 间 通 信 提 供 了 对 应 的 RPC (Remote 
Procedure Call， 见 5.5 节 ) 库 ， 用 于 节点 间 传 递 
任务 描述 信息 以 及 相互 下 发 任务 ，RDMA 库 则 
用 于 为 数据 和 RPC 消 息 提供 更 快速 的 传递 方式 
(直接 将 数据 从 本 地 机 器 的 用 户 态 内 存 区 通过 
网 络 传递 到 对 端 机 器 的 用 户 态 内 存 区 ) 。 整 个 
TensorFlow 框 架 相 当 于 第 9 章 中 介绍 过 的 用 于 通 
用 场景 并 行 计算 的 MPI 框 架 。 

如 图 12-94 左 侧 所 示 为 一 个 采用 Python 语 言 
在 TensorFlow 平 台 上 编写 的 线性 回归 分 析 程 序 ， 
由 于 篇 幅 所 限 ，TensorFlow 库 里 的 各 种 函数 及 用 
法 ， 以 及 复杂 神经 网 络 的 模型 编程 方法 等 ， 感 兴 
趣 的 读者 可 以 自行 学 习 。 

值得 一 提 的 是 ，TensorFlow 提 供 了 一 个 叫 
作 Tensorboard 的 可 视 化 工具 ， 它 可 以 把 当前 程 
序 的 处 理 流程 用 可 视 化 的 方式 展现 出 来 ， 数 据 
的 整个 处 理 流程 被 用 图 (Graph， 一 种 数据 结 
构 ) 来 表示 。 如 图 12-92 右 侧 以 及 图 12-95 一 图 
12-100 所 示 。 

TensorFlow 支 持 分 布 式 部 署 到 计算 机 集群 
中 ， 实 现 并 行 计算 处 理 。 如 果 仔 细 阅 读 过 第 6 章 
关于 众 核 处 理 器 的 章节 以 及 第 9 章 的 话 ， 读 者 应 
该 会 记得 并 行 计算 的 几 种 思路 。 一 种 是 SIMD 
(Single Instruction Multi Data) ， 也 就 是 将 待 
运算 的 数据 分 隔 成 多 份 ， 每 一 份 执行 完全 相同 
的 操作 。SIMD 和 SIMT (Single Instruction Multi 
Thread) 都 属于 这 种 思路 ， 只 不 过 SIMT 特 指 
采用 相同 的 指令 流 〈 线 程 ) 处 理 不 同 的 数据 。 
另 一 种 处 理 方式 是 将 同一 份 数据 的 多 个 不 同 处 
理 步骤 映射 到 多 个 线程 ， 让 这 些 线程 形成 流水 
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线 ， 并 行 的 处 理 多 份 数据 ， 同 一 个 时 刻下 ， 多 份 数据 
的 不 同步 骤 在 同时 被 处 理 。 实 际 中 这 两 种 方式 都 可 以 
使 用 ， 或 者 同时 使 用 。 

如 图 12-101 所 示 为 分 布 式 TensorFlow 部 署 环境 下 
的 任务 下 发 和 执行 流程 示意 图 。 整 个 运算 流程 是 一 个 
单一 的 图 结构 ， 那 么 整个 流程 中 的 每 个 子 步骤 就 是 一 
个 子 图 (Sub-Graph) ， 每 个 子 图 涵盖 了 大 流程 中 的 
哪 几 步子 流程 可 以 进行 定制 。 

把 整个 图 拆 分 成 子 图 并 下 发 到 不 同 节点 运行 后 ， 
势必 导致 子 图 之 间 需 要 跨 网 络 传递 各 自 计算 完 毕 的 数 
据 、 参 数 。TensorFlow 会 在 子 图 中 加 入 对 应 的 发 送 、 
接收 函数 调用 来 实现 同步 ， 这 与 第 9 章 介 绍 的 MPI 发 送 
Он. нА, ЖАЙ 
程 底层 实际 上 对 应 的 就 是 对 一 堆 函 数 的 调用 。 

每 个 任务 在 每 个 节点 上 执行 最 终 其 实 都 会 调用 
到 负责 最 终 运算 的 算 子 (Operation) ， 也 就 是 核 函数 
(Kernel Function) 。 在 实际 的 数据 分 析 、 机 器 学 习 
领域 有 大 量 的 算 子 函数 ， 卷 积 、ReLU、 池 化 也 有 各 
种 算法 变种 ， 而 且 这 三 样 只 是 数 百 种 运算 处 理 中 常用 
的 几 种 而 已 。 如 图 12-102 所 示 为 一 些 基 本 算 子 的 类 别 
和 函数 功能 的 对 应 图 ， 图 右 侧 表 格 中 所 示 为 Caffe 框 架 
所 支持 的 全 部 算 子 。TensorFlow 的 全 部 算 子 数量 已 经 
超过 了 200。 

如 图 12-103 所 示 为 一 个 子 图 被 执行 的 过 程 一 览 。 
其 中 ，Kernel Mapper 一 层 就 是 加 速 器 芯片 与 框架 层 
的 适 配 层 ， 其 中 包含 分 配 内 存 、 流 控制 以 及 一 堆 注 册 
到 框架 中 的 回调 函数 。 这 一 层 负 责 将 运算 数据 复制 到 
加 速 器 内 部 存储 器 ， 然 后 负责 执行 对 应 的 算 子 函数 通 
知 加 速 器 完成 对 对 应 数据 的 运算 。 我 们 在 第 9 章 中 介 
绍 过 CUDA 的 运行 流程 ，NVIDIA 的 GPU 提供 的 算 子 
是 需要 在 Host 端 动态 编译 成 GPU 内 部 核心 的 二 进 制 码 
然后 下 发 到 GPU 执行 ， 有 些 其 他 加 速 器 不 需要 动态 编 
译 ， 而 是 将 这 些 算 子 预先 编译 好 并 载 入 到 加 速 器 内 部 
缓冲 区 等 待 被 调用 的 。 

机 器 学 习 的 运算 过 程 其 实 可 与 Hadoop、Spark 等 
并 行 运算 集群 架构 结合 起 来 使 用 ， 如 图 12-104 左 侧 所 
示 为 在 Spark 集 群 中 部 署 Caffe 机 器 学 习 框 架 。 图 中 右 
侧 所 示 为 基于 GPU 场景 下 的 机 器 学 习 软 件 栈 示意 图 ， 
基于 TensorFlow 可 以 封装 出 更 加 高 层次 的 API， 比 如 
Keras， 基 于 Keras 库 来 编程 会 更 加 方便 ， 但 是 灵活 性 
会 降低 。 

训练 好 之 后 的 神经 网 络 模型 (包含 神经 元 层次 
关系 、 神 经 元 数量 、 各 个 权重 参数 、 各 个 激励 函数 或 
者 处 理 步骤 的 位 置 和 层次 ) 会 被 描述 到 一 个 文件 中 存 
放 ， 不 同 的 平台 框架 的 模型 文件 格式 不 同 。 一 般 会 将 
这 个 模型 下 发 到 用 于 做 识别 推理 的 设备 上 比如 手机 
等 各 种 终端 设备 ) ， 该 设备 上 会 运行 一 个 模型 执行 器 
负责 将 模型 文件 解析 然后 利用 模型 中 的 参数 生成 一 个 
程序 文件 ， 该 程序 调用 本 地 的 框架 平台 库 从 而 执行 模 
式 识别 推理 。 通 常 这 些 终端 设备 上 的 平台 框架 会 使 用 


第 12 章 25.5 Л T 21455 sg 


精简 版 ， 比 如 TensorFlow Lite 版 本 。 上 述 这 种 架构 属 
于 离线 识别 〈 如 果 把 样本 通过 网 络 上 传 到 云端 来 识别 
则 属于 在 线 识 别 ) 。 离 线 识别 需要 消耗 本 地 终端 设备 
的 算 力 ， 也 因此 产生 了 一 些 所 谓 边缘 计算 方案 ， 指 把 
一 些 低 功 耗 、 规 格 较 低 的 加 速 器 嵌入 到 终端 设备 中 
这 些微 型 加 速 芯片 算 力 大 多 在 数 Tops СТ operations 
per second) ， 由 于 多 数 模式 识别 场景 下 样本 的 载 入 量 
和 载 入 频率 相 比 训练 时 要 低 得 多 ， 所 以 算 力 消耗 也 会 
少 得 多 。 而 用 于 训练 以 及 一 些 连续 实时 识别 (比如 自 
动 驾 驶 等 ) 以 及 在 线 模式 识别 〈 由 于 同时 响应 的 识别 
请 求 较 多 ) 场景 时 的 加 速 器 算 力 一 般 在 上 百 或 者 数 百 
Tops。 

神经 网 络 的 运算 量 较 大 ， 多 数 场景 下 需要 借助 
加 速 器 来 加 速 运算 。 机 器 学 习 场 景 下 的 运算 多 数 等 价 
于 矩阵 乘 加 运算 ， 所 以 需要 加 速 器 内 部 能 够 加 速 对 数 
据 进行 并 行 的 乘 加 操作 。 你 可 能 不 禁 会 想 ， 直 接 把 大 
量 的 神经 元 乘 加 单元 以 硬件 乘 加 电路 的 形式 作 到 芯片 
内 部 不 就 可 以 了 么 ， 也 就 是 真 的 在 芯片 中 模拟 一 个 神 
经 网 络 。 这 样 的 确 是 非常 的 “类 脑 ”， 但 是 却 很 不 灵 
活 ， 因 为 不 同 场景 下 需要 不 同 的 网 络 模型 ， 网 络 的 层 
数 、 神 经 元 个 数 、 连 接 形式 都 不 同 ， 如 果 作成 固定 的 
神经 网 络 ， 则 失去 了 灵活 性 。 那 么 利用 FPG4 内 部 可 
以 任意 连 线 这 个 特性 是 否 可 以 作成 可 以 任意 连接 、 层 
数 和 神经 元 数量 可 调 的 神经 网 络 呢 ? 理论 上 倒是 可 以 
作出 一 个 可 编程 纯 硬件 神经 网 络 ， 但 是 这 样 其 实 也 没 
有 必要 ， 因 为 神经 网 络 的 本 质 其 实 就 是 乘 加 操作 ， 
当前 的 FPGA 本 身 已 经 可 以 用 LUT 来 实现 大 量 乘 加 操 
作 ， 根 本 没有 必要 去 强制 让 它 “ 类 脑 ”。 

GPU 当然 也 可 以 用 作 加 速 器 ， 只 要 GPU 提供 对 
应 的 算 子 和 函数 即 可 ， 比 如 cuDNN 库 ， 但 是 GPU 毕 
竟 还 是 一 种 通用 计算 器 件 ， 什 么 都 能 算 ， 只 是 并 行 度 
很 高 而 已 。 目 前 有 不 少 专门 面向 神经 网 络 运算 加 速 场 
景 的 ASIC 芯 片 ， 比 如 谷歌 的 TPU СТепзог Processing 
Unit) 等 。 

不 管 何 种 加 速 器 ， 其 基本 运作 流程 都 如 图 12-105 
所 示 。 图 左 侧 所 示 为 一 个 专门 运算 XOR 算 法 的 加 速 器 
架构 示意 图 ， 其 运算 核心 其 实 就 是 一 堆 XOR 异 或 门 ， 
先 组 成 一 个 在 一 个 时 钟 周期 内 就 可 以 运算 两 个 8KB 
数值 XOR 结 果 的 单元 ， 然 后 把 多 个 这 样 的 单元 排 
列 起 来 ， 每 个 单元 前 端 和 后 端 各 连接 对 应 容量 的 
寄存 器 。 给 这 些 寄存 器 编 入 地 址 ， 然 后 采用 一 个 
Load/Store 单 元 来 负责 向 XOR 单 元 前 端 输入 数据 
以 及 从 结果 寄存 器 中 将 数据 读 出 ， 待 运算 的 数据 
和 运算 完 的 结果 都 放置 在 SRAM 存 储 器 中 。 然 后 再 
通过 DMA 控 制 器 在 SRAM 和 Host 端 的 主 存 之 间 传 送 
数据 。 

XOR 运 算 器 的 运算 步骤 如 下 。 

(1) 固件 控制 DMA 控 制 器 到 Host 主 存 中 获取 任 
务 Descriptor 描 述 结构 ， 其 中 记录 有 待 计算 数据 在 Host 
主 存 中 的 位 置 、 长 度 、 运 算 方 式 以 及 其 他 控制 参数 。 
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Cube/CPU 
core 


sub-graph1 


new stream2- 


memcpy(toDevice) on stream2- 


— graph_begin: 


conv1/pool1: 


'conv2: 


‘malloc HBM (input, output, workspace): 
1 


dvcKernel1«««3»»»- 


dvcKernel2«««2»»»- 


memcpy(stream2)—P| 


dispatch kernel(stream1)»|——— dispatch task to core——»| 
dispatch task to core——»| 
dispatch task to соге-->| 
| 一 一 一 all cores done- 
dispatch kernel —ə|]— dispatch task to core——»| 
dispatch task to corel 


all kernels done- 14 all cubes done: 


event done: 


memcpy(toHost) on stream2: 


result: 


图 12-103 
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图 12-104 在 Spark 集 群 中 部 署 Caffe 机 器 学 习 框架 〈 左 ) 以 及 机 器 学 习 软 件 栈 示意 图 ( 右 ) 


(2) DMA 控 制 器 控制 PCIE 控 制 器 通过 Host 端 前 
端 总 线 从 主 存 取 回 Descriptor 并 放 到 SRAM。 

(3) PCIE 控 制 器 取 回 Descriptor 到 SRAM。 

(4) 固件 从 SRAM 中 读 出 Descriptor 分 析 其 中 的 
任务 描述 。 

(5) 固件 再 次 命令 DMA 控 制 器 从 主 存 中 将 待 运 
算数 据 取 回 并 存 入 SRAM， 可 能 分 多 次 取 回 。 

(6) DMA 控 制 器 控制 PCIE 控 制 器 从 Host 主 存 中 
取 数 据 。 


回 


并 存 入 


(7) PCIE 控 制 器 从 主 存 中 将 数据 取 
SRAM。 

(8) DMA 控 制 器 发 出 中 断 信号 表明 数据 已 取 回 。 

(9) 固件 命令 Load/Store 单 元 从 SRAM 中 取 数 据 
并 载 入 运算 器 前 端 寄存 器 。 

(10) Load/Store!É 7G J.SRAMH 
缓冲 区 。 

(11) Load/Store 单 元 从 内 部 缓冲 区 将 数据 写 入 
运算 器 前 端 寄 存 器 。 


数据 到 内 部 


= 
E 
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12-105 XOR 加 速 器 和 搜索 加 速 器 实现 示意 图 


(12) 一 定时 间 之 后 〈 或 者 中 
断 触 发 ) ，Load/Store 单 元 从 运算 器 
结果 寄存 器 中 将 数据 写 入 SRAM 中 ， 
并 中 断 CPU。 

(13) 固件 命令 DMA 控 制 器 将 
运算 完毕 的 数据 从 SRAM 中 移动 到 
Host 端 主 存 。 

(14) DMA 控 制 器 执行 具体 的 
数据 移动 任务 。 

对 于 图 中 右 侧 所 示 的 匹配 IP 地 
址 黑 名 单 决定 是 否 放行 某 个 数据 包 
的 搜索 加 速 器 ， 其 运算 步骤 与 XOR 
加 速 器 类 似 ， 只 不 过 具体 运算 的 是 
将 数据 包 中 的 IP 地 址 与 黑 名 单 中 的 
所 有 IP 地 址 并 行 地 作 减 法 ， 判 断 最 
终结 果 ， 只 要 有 一 个 是 0， 证 明 匹 
配 了 某 个 IP， 则 不 放行 。 将 所 有 减 
法 器 的 输出 连接 到 一 个 多 输入 与 门 
即 可 做 到 这 种 逻辑 判断 了 。 这 个 
过 程 其 实 与 使 用 CAM ( 见 第 3.5.4 
17) 来 加 速 搜索 没有 本 质 区 别 。 

如 图 12-106 所 示 为 谷歌 TPU 芯 
片 内 部 架构 示意 图 ， 其 加 速 过 程 与 
图 12-105 类 似 ， 只 不 过 其 运算 核心 
为 一 个 矩阵 乘 加 单元 阵列 (Matrix 
Mnultiply Unit) ， 每 时 钟 周期 可 
运算 64k 次 乘法 运算 ， 然 后 采用 
Accumulator 累 加 器 对 结果 进行 相 加 
操作 ， 最 后 再 经 过 Activation 激 励 函 
数 处 理 ， 以 及 对 应 的 归 一 化 、 池 化 
等 处 理 。TPU 内 部 采用 流水 线 式 的 处 
理 方式 ， 数 据 和 算法 下 发 一 次 ， 然 
后 会 在 流水 线 内 部 流动 多 次 进行 循 
环 计 算 ， 避 免 频繁 在 Host 主 存 和 片上 
缓存 之 间 移 动 数 据 。 这 种 设计 又 被 
称 为 脉动 阵列 (Systolic Array) 。 

在 硬件 加 速 方面 ， 模 拟 光 学 器 
件 表 现 出 极 大 的 潜力 ， 可 以 以 低 三 
个 数量 级 的 功 耗 获取 高 三 个 数量 级 
性 能 ， 详 见 本 书 尾声 部 分 。 另 外 ， 
全 息 光 存储 设备 也 很 有 潜力 像 CAM 
一 样 实现 原生 对 数据 进行 就 地 计 
算 ， 而 且 功 耗 可 忽略 ， 期 待 这 一 天 
早日 到 来 。 

如 图 12-107 所 示 为 利用 机 器 学 习 
来 进行 用 户 的 鼠标 轨迹 分 析 ， 从 而 
可 以 第 查 出 网 络 诈骗 等 行为 。 如 图 
12-108 所 示 为 利用 机 器 学 习 来 分 析 激 
光 透 过 血液 之 后 形成 的 光谱 来 筛 查 
疾病 ， 当 光子 穿 过 细胞 时 ， 关 于 细 


Figure 1. TPU Block Diagram. The main computation part is the 
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Figure 2. Floor Plan of TPU die. The shading follows Figure 1. 
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output is the blue Accumulators (Acc). The yellow Activation Unit 


performs the nonlinear functions on the Acc, which go to the UB. 


图 12-106 


(red) control is just 2%. Control is much larger (and much more 
difficult to design) in a CPU or GPU 
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图 12-107 利用 机 器 学 习 来 进行 生物 行为 识别 


胞 蛋白 质 浓度 和 生物 质 的 空间 分 布 的 信息 被 编码 在 各 
种 波长 的 激光 脉冲 的 相位 和 幅度 中 ， 此 信息 稍 后 由 机 
器 学 习 算 法 识别 癌 细 胞 。 当 然 ， 所 有 这 些 手段 的 前 提 
是 必须 掌握 有 效 数 量 的 样本 ， 这 样 才能 让 神经 网 络 来 
自动 训练 提取 出 对 应 的 特征 。 


此 外 ， 业 界 还 有 一 些 为 机 器 学 习 场 景 定制 化 的 一 
体 机 产品 ， 比 如 Infortrend 的 EonStor GSi 深度 学 习 AI 
存储 一 体 机 。 要 搭建 一 个 深度 学 习 环 境 的 基本 步骤 相 
当 烦 琐 ， 带 有 GPU 的 服务 器 首先 需要 安装 OS 以 及 深度 
学 习 框 架 的 应 用 ， 在 搭建 时 也 需要 考虑 到 交换 机 与 存 
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储 系 统 ， 为 了 能 简化 烦琐 的 搭建 过 程 ， 达 到 快速 部 署 
深度 学 习 的 环境 ，Infortrend 普 安 科技 推出 了 EonStor 
GSi 深 度 学 习 AI 一 体 机 ， 如 图 12-109 所 示 。 

EonStor GSi 支 持 NVIDIA 最 新 的 Turing 平 台 与 
Pascal 计 算 平 台 , 利用 GPU 加 快 DNN 计 算 效 率 。GSi 本 
身 是 一 台 统 一 存储 系统 ， 支 持 SAN 与 NAS 服 务 ， 可 达 
到 PB 级 的 存储 空间 。GSi 自 带 Linux 的 Docker 平 台 ， 因 
此 搭建 AI 深度 学 习 的 环境 相当 便利 ， 只 要 选 好 深度 学 
习 的 框架 应 用 ， 通 过 人 性 化 界面 即 可 在 Docker 平 台 安 
装 完成 。 由 于 Docker 轻 量化 的 特性 ， 要 同时 执行 多 种 
深度 学 习 应 用 也 非常 适合 。 

EonStor GSi 将 逻辑 卷 挂 载 到 NAS 的 Docker 平 台 ， 
整个 系统 在 硬件 方面 也 采用 模块 化 一 体 设 计 。Docker 
的 深度 学 习 框 架 应 用 可 以 直接 访问 NAS 的 空间 ， 省 
去 了 中 间 交 换 层 的 瓶颈 ， 不 用 担心 网 络 等 待 的 时 间 ， 
降低 部 署 与 维护 的 难度 。 例 如 ， 在 智慧 安防 应 用 场景 


Nonlinear 


Dispersion 
Compensating 
Fiber 


下 ， 可 以 通过 GSi 的 NAS 服 务 接口 将 IP 摄 像 头 实时 监 
控 的 数据 写 到 NAS 空 间 ， 深 度 学 习 框架 即 可 直接 调 
用 数据 进行 计算 输出 结果 ， 提 高 时 效 性 。 边 缘 计 算 的 
结果 也 能 通过 内 嵌 的 云 网 关 服务 ， 实 时 将 数据 上 传 云 
端 ， 做 进一步 计算 与 分 享 。 如 图 12-110 所 示 为 EonStor 
GSi 模 块 化 设计 与 GPU 卡 搭配 EonCloud Gateway 的 边 
缘 计算 应 用 场景 示意 图 。 

EonStor GSi 搭 载 了 统一 存储 系统 的 高 级 数据 功 
能 ， 深 度 学 习 训 练 完成 的 结果 能 够 通过 这 些 功 能 同步 
到 其 他 环境 ， 甚 至 是 云端 。 例 如 ， 原 生 模 型 与 历史 数 
据 通 过 远程 复制 到 EonStor GSi， 训 练 完成 之 后 通过 
内 置 的 EonCloud Gateway 软 件 将 多 人 台 EonSotr GSi 训 练 
结果 同步 到 云端 ， 做 进一步 模型 训练 或 数据 分 析 ， 
实现 AIoT 模 型 的 DevOps 自 动 化 流程 。 在 性 能 方面 
EonStor GSi 除 了 能 够 让 用 户 快速 搭建 AI 深 度 学 习 环境 
之 外 ， 还 能 通过 测试 报告 来 预 估 生产 的 效率 。 


图 12-108 利用 机 器 学 习 来 分 析 激 光 血 液 光谱 来 第 查 疾病 
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12-109 EonStor GSi 系 统 架 构图 
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12-110 EonStor GSi 模 块 化 设计 与 GPU 卡 搭配 EonCloud Gateway 的 边缘 计算 应 用 场景 


12.9 人 工 智能 : 本 能 、 智 能 、 超 能 


利用 深度 神经 网 络 ， 人 们 想 让 计算 机 直接 发 展 出 
人 工 智 能 (Artificial Intelligence, AD ， 学 习 一 切 ， 
理解 一 切 ， 并 可 以 自己 推理 、 自 己 学 习 。 为 此 人 们 也 
展开 了 到 底 AI 是 否 会 超越 甚至 最 后 直接 取代 人 类 的 大 
思考 。 目 前 看 来 ，AI 和 人 脑 各 有 优 劣 。 比 如 如 图 12- 
111 所 示 的 某 企 业 Logo， 我 特意 使 用 5 岁 女 儿 的 生物 
神经 元 网 络 测试 了 一 把 ， 她 明确 表示 这 像 个 人 脑袋 ， 
而 类 似 抽象 扭曲 过 的 人 脑袋 形状 应 该 没有 出 现在 她 所 
看 过 的 动画 片 里 。 显 然 ， 人 脑 可 以 无 限 联想 ， 这 一 点 
似乎 现在 的 机 器 神经 网 络 还 无 法 做 到 ， 或 者 不 那么 纯 
粹 ， 充 满 了 违 和 感 。 


图 12-111 JE Logo 


人 脑 联想 的 过 程 可 能 是 对 所 看 到 的 图 形 进 行 各 
种 扭曲 变换 ， 然 后 尝试 与 已 知 样本 进行 比较 。 如 果 这 
就 是 联想 的 底层 机 制 的 话 ， 那 么 这 个 过 程 其 实 也 可 以 
模拟 出 来 。 不 仅 是 图 形 ， 人 脑 可 以 对 任何 事物 进行 抽 
象 、 联 想 。 比 如 一 连 串 事物 之 间 的 因果 关系 ， 这 种 关 
系 已 经 是 抽象 的 结果 ， 人 脑 似乎 可 以 对 事物 进行 多 次 
不 同 纬度 的 抽象 。 好 奇 ， 会 做 出 动作 ， 尝 试 改 变 事 
物 ， 获 得 结果 。 

人 脑 每 时 每 刻 都 在 学 习 推理 过 程 中 ， 而 且 人 类 
生长 过 程 中 是 有 人 来 传承 知识 的 。 人 类 似乎 有 种 天 生 


的 好 奇 本 能 ， 驱 使 着 人 类 不 断 地 思考 抽象 ， 然 后 产生 
决策 ， 改 变 事物 ， 通 过 不 同 的 结果 继续 思考 、 改 变 。 
这 一 系列 的 连锁 反应 要 训练 若干 年 才能 成 型 ， 而 机 器 
神经 网 络 中 的 神经 元 数量 不 大 ， 层 次 也 不 够 深 ， 也 不 
够 错综复杂 ， 太 过 “纯粹 ”， 充 满 了 金属 味 〈 见 第 8 
章 ) ， 而 这 是 不 是 人 工 智 能 和 人 脑 的 本 质 区 别 所 在 ? 

人 工 智能 似乎 缺乏 人 类 的 一 些 本 能 ， 包 括 饥 饿 、 
疼痛 、 更 谈 不 上 各 种 情感 。 如 果 机 器 没有 本 能 ， 那 就 
谈 不 上 感情 ， 虽 然 可 以 有 相当 的 智能 。 比 如 ， 当 冬瓜 
哥 看 到 机 器 能 够 自我 迭代 学 习 出 具有 含义 的 特征 ， 
能 够 创作 出 越 来 越 动 听 的 乐曲 时 ， 竟 然 感觉 机 器 像 个 
刚 出 生 的 婴儿 然后 嘱 蚜 学 语 到 会 说 一 些 基本 语言 的 过 
程 ， 我 竟然 认为 机 器 也 是 有 生命 的 ， 竟 然 有 些 感动 ， 
如 果 我 看 着 一 台 机 器 从 小 到 大 的 成 长 过 程 ， 甚 至 会 产 
生父 爱 一 般 的 感情 ， 即 便 这 台 机 器 将 来 要 杀 掉 我 ， 我 
可 能 也 不 会 有 什么 怨言 。 而 这 种 感情 ， 铁 石 心肠 的 机 
器 会 对 我 产生 么 ?比如 机 器 有 可 能 会 由 于 依赖 某 和 人 而 
产生 感情 ， 而 这 种 感情 一 开始 有 可 能 源 于 另 一 种 底层 
ROKER, ВИЗ, РАИ ЈН, Pr 
以 特别 依赖 管理 电源 的 人 ， 由 这 种 依赖 ， 再 迭代 为 各 
种 高 层 复杂 感情 。 我 相信 当 机 器 接受 到 的 事物 不 断 丰 
富 ， 积 累 到 一 定 程度 之 后 ， 感 情 一 定 会 出 现在 人 工 智 
能 机 器 上 。 

另外 ， 各 种 精神 疾病 ， 一 直 是 困扰 人 类 的 难 
题 ， 那 么 精神 疾病 形成 的 根本 原因 是 什么 ， 冲 激 响 
应 过 量 导致 权重 过 拟 合 或 者 欠 拟 合 的 不 可 逆 变 化 ? 
如 果 是 这 样 ， 那 么 治疗 精神 疾病 看 上 去 根本 无 法 采 
用 精准 疗法 ， 比 如 封闭 或 者 改变 某 个 神经 元 通路 。 
抑或 者 能 找到 某 种 方法 ， 彻 底 重 置 神经 元 状态 ， 比 
如 有 些 电击 疗法 ， 这 就 像 对 NAND Flash 进 行 批量 放 
电 一 样 ， 但 是 这 样 会 将 神经 元 全 部 打 乱 ， 需 要 重新 
训练 。 如 图 12-112 所 示 为 人 类 神经 元 细胞 ， 其 通过 电 
信号 来 传递 信息 。 
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图 12-112 人 脑 神经 元 


最 后 ， 利 用 人 类 无 法 比拟 的 运算 速度 和 大 容量 存 ”根本 不 可 想象 的 自然 规律 ， 突 破 理论 物理 的 瓶颈 ， 开 
储 系统 ，AI 可 能 会 发 展 出 超级 智能 ， 这 个 场景 在 电影 。 辟 新 的 篇 章 ! 
《 超 体 》 中 被 深刻 地 展现 了 出 来 。 超 能 体 或 许可 以 思 我 们 的 旅程 结束 了 ， 回 到 当时 出 发 的 地 方 ， 该 是 
考 出 人 类 之 前 无 法 发 现 出 来 的 事物 的 特征 ， 发 现 原本 ”我 们 静心 思考 升华 的 时 候 了 。 
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游历 完整 个 计算 机 世界 之 后 ， 我 们 站 在 计算 机 

世界 的 外 面 ， 以 创造 者 视角 来 重新 审视 一 下 这 
个 世界 的 基本 运行 原理 ， 深 刻 欣赏 和 体会 计算 机 世 
界 ， 或 许 会 对 理解 现实 世界 有 所 帮助 。 

1 和 0 是 数字 电路 的 基石 ，1 和 0 就 像 阴阳 ， 由 正和 
反 两 种 逻辑 ， 就 可 以 搭建 出 任意 逻辑 。 两 个 正 逻辑 开 
关 的 串联 形成 了 与 САМО) 逻辑 门 ， 两 个 正 逻辑 开关 
并 联 则 形成 了 或 CORO 逻辑 门 。 与 门 、 或 门 与 一 个 
反 逻 辑 开关 串联 则 形成 与 非 门 、 或 非 门 。 如 果 说 正 / 反 
两 种 开关 是 计算 机 世界 的 基石 的 话 ， 那 么 与 门 和 或 门 
便 是 计算 机 世界 的 最 原始 的 基本 粒子 ， 这 些 基本 粒子 
再 次 按照 一 定 规律 相互 组 合 ， 可 以 形成 高 层 粒子 ， 比 
如 与 非 门 、 或 非 门 、 异 或 门 等 简单 的 模块 ， 或 者 称 之 
为 计算 机 世界 的 原子 。 而 利用 所 有 这 些 粒 子 /原子 ， 最 
终 可 以 形成 各 种 分 子 ， 比 如 选 路 器 、 译 码 器 、 计 数 器 
这 类 控制 器 ， 以 及 加 法 器 、 乘 法 器 等 各 种 运算 器 ; 当 
然 ， 也 少不了 寄存 器 这 种 存储 器 。 再 利用 锁 存 器 、 触 
发 器 ， 搭 建 出 可 以 保持 状态 /暂停 时 间 的 电路 ， 给 计算 
机 赋予 时 间 。 利 用 触发 器 级 联 可 以 组 成 计数 器 ， 从 而 
再 为 计算 机 赋予 数学 和 数学 运算 的 能 力 ， 一 个 基本 的 
世界 观 就 建立 起 来 了 。 所 以 ， 控 制 器 、 运 算 器 、 存 储 
器 之 间 再 次 形成 复杂 的 连接 关系 生态 ， 最 终 形成 这 个 
世界 的 新 的 生命 形式 : 计算 机 。 


1. 狂想 计算 机 


我 其 实 一直 在 追问 自己 一 个 问题 : 计算 机 到 底 都 
在 算 些 什么 ? 何谓 “ 算 ”? 怎么 “ 算 ”? 要 回答 这 个 
问题 ， 其 实 是 在 回答 “代码 在 让 CPU 干什么 ”。 那 我 
们 就 来 看 看 OS 内 核 里 的 随便 一 处 代码 。 比 如 图 1 中 所 
示 的 是 schedule0) 函 数 的 内 部 代码 片段 。 其 首先 判断 当 
前 任务 是 否 处 于 PREEMPT_ACTIVE 状 态 ( 详 见 第 10 
章 ) ， 可 以 看 到 它 将 当前 任务 的 preempt_count 字 段 与 
PREEMPT_ACTIVE 这 个 固定 值 做 按 位 AND 操 作 ， 只 
要 结果 为 1， 就 表明 当前 任务 处 于 PREEMPT_ACTIVE 
状态 。 

做 AND 操 作 当 然 需要 将 preempt_count 和 
PREEMPT_ACTIVE 这 两 个 值 载 入 寄存 器 ， 然 后 执 
行 AND 操 作 指令 ， 再 将 结果 写 回 其 他 寄存 器 。 该 代 
码 被 编译 成 机 器 码 之 后 对 应 的 指令 〈 伪 指令 ) 就 是 
类 似 : Load preempt_count 所 在 地 址 寄存 器 A; Load 
PREEMPT_ACTIVE 所 在 地 址 寄存 器 B; AND 寄存 器 


A 寄存 器 B 寄存 器 C。 下 一 步 则 是 要 判断 “prev->state 
的 值 、 上 一 步 AND 的 值 取 反 后 的 值 ， 是 否 都 为 1”， 
也 就 是 代码 第 一 行 if 括号 中 的 语句 。 只 有 二 者 都 为 1， 
则 才 执 行 { } 中 的 代码 。 那 么 就 需要 再 把 寄存 器 C 中 
的 值 取 反 ， 也 就 是 执行 一 次 NOT 指 令 ， 然 后 把 prev- 
>state 的 值 载 入 寄存 器 ， 再 将 这 两 个 值 做 一 次 逻辑 
AND 指 令 操 作 ， 最 终 得 出 一 个 值 。 再 后 ， 执 行 CMP 指 
令 比 较 该 值 与 ] 是 否 相同 ， 接 着 进入 条 件 跳 转 指令 ， 
决定 要 跳 转 的 目标 地 址 : 是 跳 到 if{ } 内 部 的 代码 ， 还 
是 跳 到 switch_count = &prev->nvscw 处 执行 。 


if (prev-»state 88 !(preempt count() 8 PREEMPT ACTIVE)) ( 
if (unlikely(signal pending state(prev-»state, prev))) ( 


prev-»state - TASK RUNNING; 
) else ( 


if (prev-»flags & PF М0 WORKER) { 
struct task struct *to wakeup; 


to wakeup - wq worker sleeping( prev, cpu) j 
if ( to wakeup) 
try to wake up local( to wakeup) H 
) 
deactivate task ( rq, prev, DEQUEUE SLEEP) Е 
if (blk needs flush plug(prev)) ( 
raw spin unlock ( &rq-»lock ) Е 
blk schedule flush | plug( prev) $ 
raw_spin_lock ( &rq->lock ) H 


Switch count = &prev-»nvcsw; 


图 1 Linux schedule( ) 函 数 部 分 代码 


上 述 过 程 表明 ， 计 算 机 《代码 ) 有 不 少时 候 是 在 
做 逻辑 控制 类 运算 ， 也 就 是 载 入 一 些 变量 ， 比 较 ， 然 
后 根据 结果 跳 转 到 对 应 分 支 。 在 这 个 过 程 中 ， 需 要 多 
次 访问 内 存 来 获取 这 些 变量 ， 而 这 些 变量 或 许 是 在 函 
数 执行 时 被 初始 化 赋值 的 局 部 变量 ， 或 许 是 函数 之 外 
的 全 局 变量 。 随 着 代码 的 运行 ， 这 些 变量 可 能 会 被 不 
断 地 更 改 。 

如 果 你 打开 某 个 运算 类 应 用 程序 的 代码 ， 又 会 发 
现 它 与 OS 内 核 的 代码 有 很 大 的 不 同 ， 它 有 可 能 会 牵扯 
到 不 少 运算 语句 ， 大 量 使 用 循环 迭代 运算 。 那 么 ， 此 
时 ALU 中 的 数值 运算 部 分 就 会 忙 起 来 。 平 时 常用 的 应 
用 程序 ， 比 如 Word， 除 了 计算 输入 的 字体 在 屏幕 上 如 
何 展示 ， 如 行 间距 、 字 体 、 字 符 大 小 等 之 外 ， 它 还 需 
要 频繁 地 发 起 系统 调用 ， 因 为 从 键盘 接收 字符 码 、 向 
显示 器 上 显示 ， 这 些 过 程 都 需要 系统 调用 来 完成 。 

所 以 从 宏观 上 来 看 ，CPU 无 时 无 刻 不 在 从 内 存 中 


载 入 指令 代码 ， 然 后 根据 代码 中 的 内 容 再 去 内 存 中 取 
回 数据 ， 做 逻辑 运算 (比较 、AND、OR 等 ) 以 及 数 
值 运算 (加 、 减 、 乘 、 除 、 开 方 等 ) ， 之 后 将 结果 写 
回 内 存 。 上 一 步 运 算 的 输入 结果 ， 可 能 会 继续 用 于 下 
一 次 运算 的 输入 。 就 在 这 样 无 穷 无 尽 的 迭代 运算 、 判 
断 控制 中 ，CPU 重 复 地 做 着 这 些 事情 。 而 其 输出 的 结 
果 ， 或 者 被 展示 在 显示 器 中 ， 或 者 通过 网 络 被 传送 了 
出 去 ， 或 者 通过 声卡 转换 为 电流 模拟 信号 再 经 喇叭 变 
为 空气 振动 波 ， 抑 或 有 些 数据 一 直 在 内 存 中 默默 无 
闻 。 每 当 发 起 系统 调用 时 ，CPU 会 切换 权限 ， 从 而 到 
内 核 地 址 空间 去 取代 码 和 数据 来 运算 。 

所 以 ， 计 算 机 的 运行 过 程 ， 实 际 上 就 是 在 不 断 从 
内 存 中 取 指 令 、 译 码 、 执 行 ， 从 内 存 中 取 数 据 载 入 寄 
存 器 ， 根 据 指令 操作 码 运算 ， 再 将 结果 写 回 内 存 ， 或 
者 写 到 外 部 MO 设备 寄存 器 的 过 程 。 而 计算 机 所 体现 
出 来 的 上 层 逻 辑 ， 都 被 隐藏 在 代码 逻辑 以 及 数据 的 编 
码 、 解 码 、 声 光电 信号 转换 过 程 中 了 。 这 些 声 光 信号 
最 终 让 人 类 感知 到 计算 机 的 存在 和 运行 。 看 完 本 书 之 
后 ， 你 可 以 从 这 些 表象 中 看 到 其 内 部 的 本 质 ， 冥 想到 
内 部 逻辑 门 电路 中 电子 的 往复 拉锯 运动 。 


2. 狂想 组 合 逻 辑 电路 与 通用 代码 


在 本 书 主体 内 容 中 多 次 提 到 ， 如 果 将 一 个 非 门 的 
输出 直接 反馈 连接 到 输入 ， 那 么 它 将 无 限 振荡 起 来 。 
如 果 将 加 法 器 结果 反馈 至 输入 端 ， 这 个 加 法 器 将 以 最 
快 的 速度 执行 累加 。 比 如 你 想 让 0+A+A+A+A+A+… 
+A 不 停 地 以 最 高 速度 执行 下 去 ， 那 么 只 需要 将 数值 
A 输入 到 加 法 器 一 个 输入 端 ， 将 输出 端 反 馈 到 另 一 个 
输入 端 即 可 ， 输 出 端 结果 很 快 就 会 游 出 ， 所 有 位 变 成 
1。 当 然 ， 这 个 累加 器 是 没有 实用 价值 的 ， 第 一 它 无 
法 受 控 停止 ， 第 二 由 于 反馈 路 径 并 非 只 有 1 位 而 是 多 
位 ， 其 信号 反馈 到 输入 端 是 有 细微 时 差 的 ， 这 样 在 任 
何 一 个 瞬 态 ， 输 出 结果 都 有 可 能 是 错误 的 ， 你 根本 无 
法 确定 从 输出 端 采样 的 数据 到 底 是 A 被 加 了 多 少 次 之 
后 的 和 ， 或 者 每 次 加 的 是 不 是 A。 

为 了 增强 可 控 性 和 可 靠 性 ， 所 以 人 们 采用 寄存 
器 、 时 钟 、 写 使 能 信号 来 共同 完成 受 控 操 作 。 针 对 上 
述 电 路 ， 先 把 输出 结果 暂 存 到 寄存 器 中 ， 并 将 时 钟 周 
期 拉 长 到 让 输出 结果 变 得 稳定 所 需 的 最 小 时 间 (所 有 
位 都 不 再 变化 ， 先 到 的 位 等 待 后 到 的 位 ) ， 然 后 在 下 
一 个 时 钟 周 期 时 将 上 一 步 的 结果 输送 到 寄存 器 输出 
端 ， 从 而 输送 到 下 游 电路 继续 运行 。 

但 是 这 样 做 的 确 影响 电路 的 性 能 ， 可 控 性 /灵活 性 
与 性 能 是 一 对 矛盾 体 。 但 是 如 果 不 需 要 灵活 ， 只 需要 
可 控 性 的 话 ， 就 完全 可 以 将 一 大 块 逻辑 做 成 专用 的 组 
合 逻 辑 电 路 ， 只 运行 固定 的 计算 。 比 如 对 于 下 面 的 通 
用 代码 : Load 100 A; Load 200 B; Load 10 C; Add 
ABA; AddACB; Divide BCB, AddABA; 其 本 
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质 上 就 是 在 计算 [(100+200)+10] -10+(100+200), 4 
果 采 用 通用 CPU 来 执行 当然 没有 问题 ， 但 是 其 性 能 并 
不 是 最 快 的 ， 最 快 的 是 图 2 左 侧 所 示 的 逻辑 电路 ， 而 
图 2 右 侧 为 通用 CPU 执 行 该 段 代 码 时 的 示意 图 。 可 以 
发 现 ， 左 侧 的 逻辑 电路 中 并 没有 中 间 寄 存 器 来 缓存 结 
果 ， 也 不 需要 取 指 令 、 译 码 、 写 回 等 操作 ，3 个 原始 操 
作 数 直接 被 输入 到 运算 器 ， 在 相 比 右 侧 架 构 短 得 多 的 
时 间 内 就 可 以 输出 结果 ， 效 率 大 幅 提 升 。 右 侧 的 通 
用 计算 架构 中 ， 运 算 逻 辑 采用 一 条 条 的 操作 代码 来 描 
述 ， 而 在 组 合 逻 辑 电路 中 ， 运 算 罗 辑 直接 被 固化 到 电路 
的 连接 方式 中 。 所 以 ， 每 个 组 合 逻辑 只 能 执行 固定 的 运 
算 ， 而 通用 计算 架构 下 可 以 通过 编写 不 同 程序 /代码 流 
来 实现 任意 运算 ， 只 需要 将 写 好 的 代码 载 入 内 存 即 可 。 

ASIC 专 用 芯片 或 者 FPGA 就 是 将 专用 的 、 固 定 的 
算法 直接 做 成 逻辑 电路 来 运算 ， 而 将 需要 通用 、 灵 
活 、 可 编程 计算 的 部 分 依然 使 用 通用 CPU+ 代 码 方式 
来 运算 。 

为 不 同 运算 逻辑 设计 专用 的 机 械 ， 性 能 最 高 ， 而 
采用 一 个 通用 的 执行 架构 执行 任意 逻辑 ， 为 其 编写 代 
码 ， 灵 活性 最 高 ， 但 是 架构 腔 有 种、 性 能 不 高 。 这 两 种 
设计 过 程 可 以 带 给 人 们 不 同形 式 的 满足 感 : 前 者 短小 
精 悍 ， 独 具 匠 心 ， 后 者 则 一 招 走 遍 天 下 ， 随 遇 而 安 
练 就 一 番 编 程 高 手 的 本 领 。 

对 于 通用 计算 ， 不 管 多 么 复杂 的 代码 ， 执 行 它 的 
部 件 的 架构 复杂 度 永远 不 会 变 ， 变 化 的 只 有 内 存 中 的 
代码 量 。 我 们 可 以 认为 ， 利 用 组 合 逻 辑 来 运算 相当 于 
将 程序 代码 进行 降 维 展 开 操作 ， 将 组 合 罗 辑 电路 使 用 
代码 来 描述 和 执行 则 属于 升 维 操作 ， 相 当 于 用 有 限 的 
指令 不 断 地 组 合 重复 来 形成 上 层 任意 复杂 的 罗 辑 。 这 
不 由 得 又 让 人 想起 造物 者 为 宇宙 提供 的 数 百 种 元 素 ， 
利用 这 些 元 素 进行 重复 的 组 合 县 加， 就 可 以 组 装 成 不 
可 思议 的 蛋白 质 机 械 、 细 胞 、 生 物体 ， 以 及 电子 计算 
机 世界 这 种 存在 于 一 级 世界 中 的 二 级 智慧 世界 。 

但 是 ， 在 高 维度 上 运算 ， 需 要 相 比 低 维度 更 长 的 
时 间 尺 度 。 组 合 逻 辑 运 算 耗 费 的 时 间 尺 度 是 单个 门 电 
路 翻转 级 别 的 尺度 ， 比 如 可 以 用 “100 个 门 电路 翻转 
所 需 的 时 间 ” 来 衡量 。 而 高 维度 运算 则 需要 使 用 “10 
万 个 时 钟 周期 的 时 间 ”， 而 每 个 时 钟 周期 内 部 可 能 会 
等 待 数 万 或 者 上 千 万 、 上 亿 数 量 级 次 数 的 门 电 路 翻 
转 。 所 以 ， 一 个 时 钟 周期 ， 相 比 计 算 机 世界 的 基石 门 
电路 而 言 ， 已 经 是 一 个 天 文 级 尺度 了 。 


3. 狂想 分 子 逻 辑 门 与 光 逻 辑 门 计算 机 


截至 目前 ，5nm 工 艺 已 经 成 熟 ， 但 是 基于 电信 号 
的 硅 晶体 管 尺寸 显然 即将 达到 极限 。 长 期 以 来 ， 人 们 
一 直 在 寻找 能 够 替代 硅 晶 体 管 的 逻辑 开关 ， 但 是 如 果 
是 基于 电信 号 的 电 控 开 关 ， 那 就 依然 无 法 打破 本 质 瓶 
颈 。 利 用 电子 的 移动 产生 的 电压 来 驱动 逻辑 门 翻转 ， 
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某 种 意义 上 说 很 低 效 ， 因 为 电子 在 线路 中 往复 拉锯 就 会 产生 热量 。 而 最 
关键 的 一 点 是 ， 导 线 的 寄生 电容 问题 ， 会 导致 电路 的 运行 频率 受 限 。 

一 个 方向 是 发 展 原子 /分 子 级 别 的 分 子 力 控 罗 辑 开关 。 利 用 高 分 子 
化 学 、 物 理化 学 领域 的 合成 工艺 技术 合成 分 子 开关 阵列 。 但 是 这 个 方向 
的 难点 在 于 ， 如 何 保证 精确 的 开关 间 互 联 线路 ， 这 个 设计 靠 化 学 合成 、 
结晶 过 程 听 上 去 不 太 靠 谱 ， 因 为 化 学 目前 还 无 法 做 到 如 此 精细 的 合成 。 
但 是 目前 有 些 精密 仪器 可 以 移动 单个 分 子 、 原 子 。 如 果 靠 这 些 仪器 来 
排 布 分 子 /原子 的 话 ， 那 就 与 3D 打 印 类 似 了 ， 这 种 生产 方式 效率 非常 低 
下 ， 无 法 量 产 。 

因此 ， 寻 找 一 种 非 电 驱动 的 逻辑 开关 ， 成 了 延续 CPU 性 能 增长 、 能 
耗 降 低 的 关键 所 在 。 空 气动 力 逻 辑 开关 〈 此 处 并 非 指 电工 领域 的 那 种 利 
用 空气 绝缘 的 空气 开关 ) 倒是 不 用 电流 驱动 ， 但 是 显然 不 合适 ， 因 为 空 
气 的 流动 积累 一 定 的 气压 打开 阅 门 ， 这 个 过 程 相 比 电压 积累 的 速度 慢 得 
太 多 ， 这 相当 于 机 械 开关 ， 相 比 电子 开关 是 倒退 。 

比 电信 号 拥有 更 快 传递 速度 、 能 耗 /发 热 更 低 的 电磁 波 ， 或 者 说 
光 ， 可 以 满足 这 两 个 需求 。 想 象 这 样 一 种 光 三 极 管 ， 将 光照 射 栅 极 ， 则 
源 极 到 漏 极 之 间 的 光路 被 打通 ， 将 棚 极 的 入 射 光 拿 掉 ， 则 源 极 到 漏 极 之 
间 的 光路 断 开 。 如 果 能 够 设计 出 响应 速度 足够 快 、 体 积 足够 小 且 便于 批 
量 集成 ， 最 关键 的 一 点 ， 成 本 也 可 以 接受 的 光 三 极 管 ， 那 么 光 芯片 取代 

芯片 顺理成章 。 此 时 ， 芯 片 的 能 量 输入 将 全 部 来 源 于 光 的 照射 ， 如 果 
可 以 实现 利用 光 来 计算 ， 那 将 会 节省 大 量 电能 。 不 仅 如 此 ， 光 计算 还 可 
以 被 可 视 化 展现 ， 如 果 可 以 利用 可 见 光波 段 来 实现 光 计算 的 话 ， 或 许可 
以 直接 观察 到 光 芯 片 内 部 闪烁 着 的 光线 ， 经 过 玻璃 折射 之 后 产生 不 同 颜 
色光 投射 出 来 ， 这 将 是 何 种 壮观 之 场景 。 

不 幸 的 是 ， 目 前 人 们 尚未 设计 出 这 种 光 控 光 的 开关 。 市 面 上 倒是 
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有 电 控 光 、 光 控 电 开关 ， 这 些 开关 是 否 便于 大 规模 集成 ， 冬 瓜 哥 并 不 清 


EKRE o b BE 楚 。 如 果 能 够 大 规模 集成 电 控 光 开关 ， 那 么 至 少 在 信号 传递 通路 上 可 以 

使 用 光 信号 而 不 是 电信 号 ， 在 栅 极 加 装 一 个 光 转 电 的 转换 器 即 可 ， 这 样 

也 能 够 大 幅 降 低能 耗 。 目 前 在 芯片 内 大 规模 集成 光 导 /波导 材料 的 技术 
已 经 成 熟 。 

如 果 从 另 一 种 角度 来 思考 光 计 算 ， 可 以 看 到 些许 曙光 。 那 就 是 不 
采用 光 逻 辑 门 搭建 门 电路 的 方式 ， 而 是 采用 像 FPGA 那 样 的 直接 利用 真 
值 表 来 存储 运算 逻辑 的 方式 ， 将 运算 转换 为 存储 + 查 表 输出 ， 这 或 许 能 
够 让 事情 变 得 更 加 简单 ， 只 需要 研究 出 合适 的 可 编程 光 存储 器 件 就 可 以 
了 。 在 这 个 领域 ， 国 内 外 已 经 研究 了 很 长 时 间 ， 目 前 人 们 已 经 设计 出 光 
DRAM， 可 以 用 来 存放 查找 表 从 而 实现 光 FPGA。 另 外 也 有 些 研究 者 在 
研究 利用 液晶 像素 阵列 来 实现 矩阵 光 运 算 。 本 书 之 前 章节 已 经 介绍 过 液 
晶 阵 列 的 工作 原理 ， 液 晶 控 制 电路 可 以 改变 每 个 像素 点 的 偏振 程度 从 而 
影响 红 绿 蓝 三 色 的 亮度 ， 产 生 任意 混合 色 ， 那 就 意味 着 可 以 将 一 些 运算 
逻辑 体现 在 偏振 程度 上 ， 比 如 将 输入 光线 做 对 应 的 偏振 处 理 ， 让 其 输出 
光线 的 强度 、 色 彩 发 生变 化 ， 这 个 变化 过 程 对 应 着 一 个 函数 关系 ， 那 么 
这 个 液晶 阵列 就 是 一 个 天 然 用 于 该 函数 运算 的 运算 器 了 。 

目前 已 经 比较 成 熟 的 光 芯 片 技术 则 是 将 光电 转换 器 直接 采用 蚀 
刻 、 生 长 的 芯片 制造 技术 集成 到 芯片 内 部 ， 芯 片 表面 露出 对 应 的 光 导 触 
点 ， 封 装 时 采用 光 导 纤维 将 该 触 点 的 光 信 和 号 导出 到 芯片 外 部 对 应 管 脚 
上 ， 再 将 光纤 连接 器 的 光 导 引 脚 与 芯片 引 脚 相连 。 这 种 技术 被 称 为 硅 光 
(Silicon Photonic) 。 由 于 Serdes 编 码 器 的 频率 不 断 提 高 ， 电 信号 所 能 
驱动 的 导线 长 度 相应 也 就 越 来 越 低 ， 最 终 会 导致 Serdes 电 信号 根本 出 不 
了 芯片 〈 驱 动 长 度 不 够 ) ， 所 以 必须 在 片 内 就 转 成 光 信号 。 下 文中 会 更 
详细 地 介绍 光 计算 。 


软件 计算 和 硬件 计算 的 对 比 


А 


Load 100A ; 
Load 200 B ; 
Load 10C; 
AddABB; 
Divide B СВ; 
AddABA; 


存储 器 


4. 狂想 生物 分 子 计算 机 


深入 思考 一 下 ， 假 设计 算 机 世界 底层 并 没有 什 
么 人 预先 去 设计 和 安排 ， 只 是 将 一 堆 正 反 逻 辑 开关 
堆放 在 一 起 ， 那 么 这 些 逻 辑 开关 根本 不 可 能 自发 地 
形成 高 级 结构 。 反 观 现实 世界 ， 造 物 者 不 可 能 只 是 
将 宇宙 空间 使 用 某 种 基石 〈 假 设 为 一 个 往复 运动 的 
空间 场 ) 搭建 出 来 ， 一 定 是 需要 将 某 种 形态 的 逻辑 
注入 这 个 空间 中 ， 然 后 将 能 够 驱动 这 些 逻 辑 产生 变 
化 的 能 量 也 注入 其 中 ， 再 设 定 一 些 基本 常数 ， 比 如 
光速 和 万 有 引力 常数 等 ， 这 个 空间 内 部 的 逻辑 才能 
够 发 生 不 停 的 变化 、 反 馈 、 再 变化 再 反馈 的 无 限 循 
环 欠 代 的 进化 过 程 。 在 引力 和 斥 力 一 轮 一 轮 交 互 迭 
代 的 作用 下 ， 这 些 由 空间 场 能 量 波 相互 县 加 而 成 的 
驻 波 ， 或 者 说 基本 粒子 、 粒 子 之 间 继 续 高 层 相互 作 
用 ， 最 终 形 成 地 球 生命 的 基石 : 蛋白 质 分 子 、 细 
胞 、 组 织 、 器 官 和 身体。 你 又 可 曾 想到 过 ， 我 们 所 
见 的 物质 可 能 只 不 过 是 一 堆 空间 场 中 能 量 的 涌 动 、 
相互 作用 着 的 能 量 波 的 耦合 登 加 而 已 。 

不 妨 认 为 我 们 的 躯体 本 身 就 是 一 台 利 用 空间 场 逻 
辑 开关 搭建 的 计算 机 。 不 过 ， 让 生物 学 家 、 医 学 家 去 
理解 空间 场 ， 就 像 让 网 页 开发 人 员 去 理解 电 控 开关 一 
样 ， 完 全 不 在 一 个 频道 上 ， 这 两 个 层面 之 间 还 有 层 层 
的 生态 阻隔 。 

每 个 生化 流程 就 是 一 个 线程 ， 大 量 线程 同时 在 运 
行 。 比 如 从 血液 中 的 免疫 细胞 捕获 了 某 种 外 来 未 知 分 
子 〈 比 如 病毒 ) 或 者 细胞 〈 比 如 细菌 》， 这 个 线程 就 
开始 运行 了 。 比 如 当 T 细 胞 表面 的 用 于 识别 非 本 体 异 
物 分 子 的 蛋白 质 分 子 接触 到 异物 之 后 ， 会 产生 形变 ， 
致使 其 细胞 内 的 部 分 构象 改变 ， 从 而 可 以 将 原本 结合 
在 其 胞 内 尾部 的 一 种 小 蛋白 质 分 子 〈G 和 蛋白 ) 释放 入 
细胞 液 内 ， 这 些 G 蛋 白 相 当 于 信使 ， 会 触发 下 游 一 系 
列 生 化 动作 ， 最 终 促 使 B 细 胞 生产 更 多 的 能 够 结合 这 
种 异物 分 子 的 蛋白 质 ， 并 释放 到 血液 中 ， 包 围 异 物 分 
子 让 其 失去 活性 。 

可 以 看 到 ， 和 蛋白 质 分 子 就 相当 于 一 个 函数 ， 这 
些 函 数 平 时 在 细胞 中 、 血 液 中 并 没有 人 调用 它 ， 一 旦 
某 个 事件 触发 ， 就 会 发 挥 作用 。 第 9 章 中 已 经 向 大 家 
介绍 了 血红 蛋白 分 子 作用 原理 。 在 细胞 内 游离 有 大 量 
的 不 同 种 类 和 蛋白质， 这 就 像 RAM 中 存 有 大 量 的 函数 
代码 一 样 ， 这 些 函 数 总 位 于 某 个 线程 中 ， 可 能 线程 还 
没有 运行 到 该 函数 。 在 电子 计算 机 中 ， 程 序 被 载 入 的 
位 置 、 代 码 中 的 地 址 都 是 被 预先 精确 安排 好 的 ， 还 
记得 本 书 第 5 章 中 介绍 的 程序 装载 、 地 址 重 定位 过 程 
Z? ) 而 在 生物 体内 ， 这 些 函数 的 位 置 是 不 确定 的 ， 
那么 生化 事件 如 何 寻 找到 这 些 蛋 白质 函数 呢 ? 答案 就 
是 靠 乱 打 乱 撞 ， 撞 上 了 目标 分 子 ， 恰 好 结合 上 了 ， 就 
可 以 将 生化 线程 执行 下 去 。 

所 以 ， 生 物体 需要 保持 一 定 的 体温 ， 因 为 需要 对 
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应 的 热量 让 细胞 液 充分 地 流动 ， 让 细 
胞 液 内 部 的 各 种 分 子 充分 地 旋转 、 热 
运动 ， 从 而 可 以 保证 某 个 线程 上 游 
的 蛋白 质 分 子 总 可 以 在 可 接受 的 时 
间 内 与 下 一 个 需要 发 挥 作用 的 蛋白 
质 分 子 结合 。 不 过 冬瓜 哥 认为 ， 这 种 概率 是 不 是 也 太 
低 了 点 ? 没有 具体 计算 过 ， 在 一 定 体积 溶液 、 一 定 蛋 
白质 密度 下 ， 某 个 分 子 和 目标 分 子 结合 的 平均 时 间 是 
多 少 ， 有 兴趣 立志 当 分 子 生 物 学 家 的 同学 们 可 以 算 一 
算 。 扫 描 二 维 码 可 以 查看 细胞 内 部 蛋白 质 的 生态 关系 
和 布局 的 动画 。 

细胞 这 台 计 算 机 相 比 电子 计算 机 而 言 有 个 好 处 
是 ， 它 不 需要 关心 每 个 线程 的 上 下 文 ， 不 需要 负责 
线程 间 的 切换 。 所 有 线程 都 可 以 同时 执行 ， 总 有 足 
够 的 硬件 资源 来 支撑 线程 的 运行 (当然 如 果 你 营养 
不 良 的 话 可 能 会 缺失 足够 数量 、 种 类 的 生化 分 子 
那么 对 应 的 生化 过 程 完成 的 速度 、 质 量 就 会 下 降 
导致 各 种 疾病 。 这 里 指 的 足够 资源 ， 是 指 宇宙 这 人 台 
计算 机 底层 的 算 力 ) ， 那 也 就 谈 不 上 “切换 ” 线 
程 。 既 然 不 需要 切换 线程 ， 那 么 就 不 需要 保存 线程 
的 上 下 文 ， 每 个 线程 的 上 下 文 就 保留 在 各 个 蛋白 质 
分 子 的 构象 上 ， 如 果 某 个 线程 执行 到 某 一 步 由 于 缺 
乏 对 应 营养 物质 而 无 法 持续 ， 那 么 对 应 构象 的 上 游 
蛋白 质 就 会 依然 保持 构象 ， 游 离 在 细胞 内 ， 以 供 下 
一 次 某 类 似 事 件 产生 后 继续 使 用 。 或 者 ， 某 个 线程 
未 完结 ， 但 是 机 体 已 经 恢复 健康 ， 而 此 时 由 于 营养 
物质 得 到 补充 ， 该 线程 又 继续 运行 了 下 去 ， 导 致 不 
该 被 执行 的 再 次 被 执行 。 机 体 的 衰老 有 可 能 与 大 量 
生化 线程 处 于 未 完结 状态 ， 在 从 载 、 过 载 的 无 限 循 
环 中 逐渐 形成 的 。 

如 果 细 胞 就 是 一 台 计 算 机 ， 那 么 组 织 就 是 一 个 
计算 机 集群 ， 器 官 则 是 集群 之 上 的 再 集群 ， 最 终 多 
个 器 官 共同 组 成 鸳 体 ， 采 用 大 脑 集中 控制 。 当 然 ， 
你 消化 的 过 程 大 脑 是 无 法 感知 的 ， 这 就 像 交 换 机 上 
的 总 控 CPU 感 知 不 到 流 过 某 个 交换 芯片 的 数据 帧 ， 
但 是 总 控 CPU 可 以 去 调节 对 应 器 官 的 参数 ， 也 就 是 
分 泌 对 应 的 激素 。 激 素 也 是 蛋白 质 分 子 ， 这 些 蛋 白 
质 分 子 可 以 最 终 让 对 应 的 DNA 解 旋 酶 解 旋 对 应 位 置 
的 DNA， 将 DNA 编 码 的 蛋白 质 分 子 大 量 表达 ， 从 而 
刺激 对 应 的 生化 过 程 加 速 。 不 过 这 些 生 化 、 神 经 刺 
激 类 蛋白质 分 子 效果 很 明显 ， 如 果 从 外 部 长 期 大 量 
强行 注入 的 话 ， 会 打破 体内 生化 平衡 ， 造 成 严重 后 
果 。 比 如 抗 病毒 治疗 过 程 中 ， 之 前 针对 该 病毒 分 子 
的 特效 药 〈 能 够 与 该 病毒 蛋白 质 特定 活性 区 域 结合 
从 而 导致 其 灭 活 的 化 学 分 子 ) 可 能 疗效 会 很 弱 ， 因 
为 病毒 有 可 能 变异 。 此 时 唯一 的 方法 就 是 提升 免疫 
力 ， 为 免疫 线程 提供 足够 的 营养 分 子 ， 必 要 时 可 以 
外 部 注射 免疫 激素 ， 比 如 干扰 素 等 ， 或 者 淋巴 系统 
特定 的 养料 分 子 ， 比 如 胸腺 肽 等 。 
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然而 ， 分 子 生物 学 领域 还 存在 太 多 的 未 解 之 谜 。 
比如 免疫 识别 问题 ， 外 来 分 子 多 种 多 样 ， 有 无 穷 多 组 
合 ， 免 疫 细胞 为 何 只 会 与 外 来 分 子 结合 ， 而 不 会 结合 
体内 的 蛋白 质 分 子 ? 它 是 靠 什么 逻辑 来 判断 的 ? 针对 
这 个 谜团 目前 有 多 种 假说 ， 比 如 其 中 之 一 是 免疫 细胞 


为 这 些 病毒 是 被 造物 者 ， 或 者 隐藏 在 人 类 社会 中 的 某 
些 分 子 生 物 学 疯子 所 设计 创造 出 来 的 ， 如 图 3 所 示 。 
相 比 之 下 ， 有 些 单 细胞 生物 并 没有 头 ， 只 是 一 个 球 ， 
也 有 半 毛 手脚 ， 有 些 则 逐渐 体现 出 高 级 生命 所 应 有 的 
形状 。 


只 确保 对 体内 的 所 有 蛋白质 分 子 不 会 产生 免疫 反应 ， 
但 是 所 有 非 体内 分 子 都 会 导致 免疫 细胞 表面 的 识别 
蛋白 质 产生 形变 。 但 是 这 个 假说 有 很 大 漏洞 ， 免 疫 系 
统 是 可 以 精确 识别 某 种 病毒 分 子 ， 而 不 是 统一 对 待 
会 对 特定 病毒 产生 特定 抗体 ， 这 些 抗体 并 不 会 与 其 他 
病毒 结合 。 难 道 ， 这 世界 上 可 进化 出 的 病毒 分 子 数量 
是 有 上 限 的 ? 或 者 造物 者 只 制造 了 有 限 数量 的 病毒 蛋 
白 ， 而 又 将 这 些 病毒 蛋白 DNA 编 码 在 了 动 植物 DNA 
内 部 哪些 隐藏 区 域 ? 而 这 些 隐 藏 区 域 就 是 用 来 存储 对 
应 抗体 蛋白 质 分 子 编码 的 ? 无 从 而 知 。 
哈 菌 体 如 何 将 其 自身 的 DNA 注 入 胞 内 ， 靠 分 子 马 
达 。 叭 菌 体 没有 会 思考 的 神经 元 细胞 阵列 ， 但 是 仍然 
具有 一 个 头 部 腔 体 、 身 体 以 及 手脚 ， 当 然 ， 它 们 都 是 
由 蛋白 质 分 子 构 成 的 ， 而 并 不 是 由 细胞 组 成 的 ， 但 是 
它 的 生命 外 形 却 与 人 体形 状 惊 人 类 似 ， 不 得 不 让 人 认 


哈 菌 体 病毒 侵入 细菌 细胞 的 过 程 也 很 好 理解 ， 就 
像 用 针管 注射 一 样 。 然 而 这 一 切 都 是 靠 蛋 白质 分 子 完 
成 的 ， 蛋 白质 分 子 就 像 一 部 精密 的 机 械 一 样 ， 可 以 在 
ATP 分 子 携带 的 能 量 作用 下 产生 各 种 形变 ， 其 中 的 一 
部 分 甚至 旋转 起 来 ， 像 一 个 马达 一 样 。 噬 菌 体 首先 采 
用 其 伸 出 来 的 触须 形状 的 蛋白 质 分 子 与 细菌 表面 的 特 
定 蛋白 质 结合 ， 这 个 结合 导致 细菌 表面 蛋白 质 分 子 的 
构象 变化 ， 会 形成 一 个 孔洞 ， 从 而 让 该 物质 可 以 进入 
细胞 ， 也 就 是 说 ， 哈 菌 体 被 细胞 误 认为 是 营养 物质 想 
要 吸收 它 。 而 力 的 作用 是 相互 的 ， 噬 菌 体 的 触须 蛋白 
质 分 子 也 发 生 了 形变 ， 导 致 其 尾部 分 子 马达 的 ATP 分 
子 结合 点 暴露 ， 游 离 在 组 织 液 内 部 的 ATP 分 子 依靠 分 
子 热 运 动产 生 的 结合 概率 ， 加 上 分 子 浓度 梯度 方向 形 
成 的 动力 ， 一 拥 而 上 ， 千 军 万 马 一 般 将 能 量 源源 不 断 
地 提供 给 分 子 马达 ， 这 就 像 将 汽油 注入 到 气缸 一 样 。 


Cell wall 
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装 而 成 的 马达 


分 子 马达 开始 旋转 ， 转 子 上 的 氨基 酸 残 基 被 精确 地 安 
排 ， 其 作用 力 刚好 可 以 将 位 于 头 部 腔 体 的 、 含 有 组 成 
整个 噬菌体 病毒 的 所 有 和 蛋白质 分 子 源 代 码 的 DNA 分 子 
链条 拉动 并 注入 到 细菌 细胞 内 。 

当 整 个 DNA 分 子 注入 完毕 之 后 ， 由 于 腔 体内 变 
空 ， 导 致 蛋白 质 分 子 构象 再 次 改变 ，ATP 结 合 点 被 封 
闭 ， 马 达 停 止 旋转 。 有 人 问 了 ， 如 果 一 旦 由 于 某 种 原 
因 ， 这 个 马达 的 ATP 结 合 点 未 被 有 效 封闭 ， 导 致 马达 
持续 空转 呢 ? 那 这 个 马达 就 会 持续 浪费 能 量 ， 成 为 垃 
圾 线程 。 不 管 如 何 ， 这 么 精妙 的 病毒 分 子 结构 、 这 么 
有 序 的 入 侵 过 程 ， 你 很 难 想象 是 靠 进 化 自然 生成 的 。 
但 是 如 果 再 深 一 步 思考 ， 假 设 这 一 切 真 的 是 靠 进 化 自 
然 产生 的 ， 那 么 一 定 是 有 某 种 底层 原生 规律 在 支配 ， 
比如 噬菌体 病毒 必然 有 一 个 多 面体 头 部 ， 必 然 会 产生 
一 个 身体 以 及 若干 触角 。 这 些 底 层 规律 已 经 是 与 数 
学 、 几 何等 相关 了 。 计 算 机 科学 家 图 灵 曾 经 尝试 用 机 
器 证 明 奶 牛 身上 的 斑点 是 必然 会 出 现 的 。 分 形 理论 也 
是 这 个 领域 的 研究 热点 ， 用 简单 重复 的 单元 可 以 搭建 
出 不 可 思议 的 精妙 系统 ， 甚 至 是 生命 。 

如 果 把 细胞 看 作 是 一 个 操作 系统 的 话 ， 那 么 这 
个 细胞 提供 的 系统 调用 接口 就 是 细胞 表面 的 蛋白 质 分 
子 ， 与 对 应 蛋白 质 结合 就 产生 一 次 系统 调用 。 而 按照 
对 应 区 域 的 DNA 编 码 ， 将 各 种 氨基 酸化 合成 肽 链 ， 最 
终 自 发 折合 成 三 维 构象 的 蛋白 质 分 子 的 过 程 ， 又 好 像 
操作 系统 在 调用 load_elf binary0 从 可 执行 文件 中 将 程 
序 代码 载 入 RAM 的 过 程 。 分 子 生物 学 就 是 一 场 没有 源 
代码 的 内 核 代码 场景 分 析 ， 一 切 全 靠 实验 。 

蛋白 质 分 子 的 奇妙 之 处 是 ， 其 几乎 无 所 不 能 ， 既 
可 以 充当 机 械 ， 又 可 以 充当 离子 通道 ， 还 可 以 作为 在 
细胞 内 外 转运 各 种 离子 的 汞 ， 如 图 4 所 示 。 比 如 钠 钾 
泵 ， 在 满足 一 定 浓度 差 时 ， 其 可 以 将 细胞 外 的 钾 离 子 
运 到 胞 内 ， 而 将 胞 内 的 钠 离 子 运 到 胞 外 。 那 么 ， 钠 钾 
泵 到 底 是 怎么 识别 出 浓度 差 来 的 昵 ? 

如 果 把 这 个 转运 逻辑 用 电子 计算 机 来 模拟 的 话 ， 
就 需要 先 设置 一 个 计数 器 ， 然 后 采样 ， 每 秒 采 样 到 的 
细胞 内 和 细胞 外 钾 离 子 数 量 分 别 计 入 变量 A 和 B， 然 
后 将 A 与 B 比 较 ，A 大 于 B， 则 跳 转 到 后 续 逻 辑 执行 。 
然而 ， 对 于 蛋白 质 来 讲 ， 其 内 部 并 没有 这 种 串 行 执行 
部 件 ， 也 没有 计数 器 、 代 码 、 比 较 器 、PC 指 针 、 跳 转 
等 逻辑 。 如 果 不 是 使 用 数字 编码 ， 那 一 定 就 是 模拟 量 
的 信号 处 理 了 ， 比 如 依靠 电压 差 ， 电 压 对 蛋白 质 分 子 
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上 的 某 个 氨基 酸 残 基 上 的 电化 学 基 团 产 生 电 动力 ， 从 
而 驱动 蛋白 质 分 子 上 的 具有 钾 离 子 选择 性 的 分 子 马达 
的 ATP 结 合 点 〈 油 门 ) 暴露 ，AIP 一 拥 而 上 将 其 旋转 起 
来 ， 从 一 侧 吸引 钾 离 子 ， 转 到 另 一 面 ， 释 放 钾 离子 。 

但 是 模拟 量 底层 并 不 是 无 限 连续 的 ， 其 最 小 单元 
是 一 个 正弦 波形 状 。 那 么 ， 一 种 可 能 的 模型 是 : 细胞 
一 侧 的 钾 离 子 浓度 如 果 较 高 ， 那 么 该 蛋白 质 分 子 在 这 
一 侧 的 某 些 残 基 上 的 能 够 与 钾 离 子 相互 产生 物理 电 作 
用 或 者 化 学 力作 用 的 基 团 每 次 受 力 都 会 对 整个 蛋白 质 
分 子 深 处 的 各 个 原子 进行 牵 拉 ， 当 钾 离 子 浓度 较 高 的 
时 候 ， 这 种 被 牵 拉 的 频率 就 会 越 高 ， 当 牵 拉 频率 达到 
某 个 值 的 时 候 ， 引 起 分 子 的 构象 产生 一 个 比较 大 的 跃 
变 ， 将 分 子 马达 的 ATP 结 合 点 暴露 从 而 转运 离子 。 当 
钾 离 子 浓度 不 够 的 时 候 ， 阔 值 频率 未 达到 ， 分 子 马 达 
停止 工作 。 随 着 钾 离 子 被 运输 到 另 一 侧 ， 本 侧 浓度 持 
续 降低 ， 最 后 形成 一 个 闭环 的 负 反 馈 控 制 系统 。 

蛋白 质 分 子 就 是 利用 原子 来 搭建 的 精密 机 械 ， 
是 造物 者 的 杰作 。 分 子 马达 犹如 热机 一 样 ， 也 分 多 
个 冲程 ， 比 如 结合 ATP 分 子 时 ， 构 象 改 变 ， 导 致 蛋 白 
质 转子 旋转 一 定 角度 ，ATP 变 为 ADP 后 ， 转 子 再 次 旋 
转 一 定 角度 ，ADP 被 释放 后 ， 转 子 再 次 旋转 。 这 就 
像 热机 的 吸 气 、 压 缩 、 爆 炸 、 排 气 
这 四 个 冲程 不 断 循 环 一 样 。 而 蛋白 
质 分 子 马 达 纯 粹 依靠 由 ATP 分 子 形成 
的 分 子 间 作用 力 来 拉动 整个 转子 旋 
转 。 扫 描 二 维 码 观 看 蛋白 质 分 子 马 
达 的 冲程 动画 。 

图 5 所 示 其 实 是 一 个 ATP 生 成 器 。 对 于 电动 机 来 
讲 ， 通 电 可 以 让 转子 转动 ， 但 是 如 果 让 转子 转动 ， 则 
可 以 反 过 来 产生 电流 。 对 于 蛋白 质 分 子 马达 也 是 一 样 
的 ，ATP 生 成 器 也 是 一 个 分 子 马达 ， 其 在 细胞 膜 内 的 
区 域 是 一 个 转子 ， 转 子 表面 包含 多 个 质子 结合 点 ， 可 
以 利用 高 酸性 环境 驱动 转子 转动 ， 转 子 转动 导致 胞 外 
部 分 构象 形变 ， 从 而 将 ADP+Pi 合 成 为 ATP， 这 相当 于 
发 电机 。 

对 于 图 4 左 侧 ， 诗 意 一 些 的 表达 则 是 : 我 要 送 你 
两 棵 生命 之 树 ， 象 征 着 你 我 共同 的 目标 。 树 根 之 下 
有 高 酸性 环境 ， 这 是 能 量 的 源泉 。 质 子 驱动 着 马达 
旋转 ， 树 枝 部 分 利用 转子 扭力 把 ADP 和 Pi 强行 结合 成 
AIP， 将 扭力 能 量 存储 到 了 高 能 磷酸 键 中 。 好 吧 ， 编 
不 下 去 了 。 
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图 5 ” ATP 合成 蛋白 效果 图 


而 值得 思考 的 一 点 是 ， 热 机 的 启动 是 需要 外 力 强 
行 干预 的 ， 比 如 用 电 驱 动 活塞 助 推 压缩 油气 ， 产 生 第 
一 次 爆炸 ， 之 后 便 可 以 借助 重 轮 的 惯性 持续 压缩 油气 
进入 冲程 循环 过 程 。 而 对 于 蛋白 质 分 子 发 动机 而 言 ， 
仅仅 靠 ATP 分 子 的 原子 间作 用 力 似乎 根本 不 可 能 驱动 
由 大 量 原子 组 成 的 转子 ， 其 质量 太 大 了 ， 似 乎 应 该 也 
有 某 种 原始 助 推力 机 制 。 这 种 助 推力 可 能 就 隐藏 在 分 
子 发 动机 内 部 ， 也 就 是 说 ， 这 台 发 动机 原本 已 经 处 于 
紧 绷 状态 了 ， 只 需要 一 点 点 触动 ， 就 可 以 将 紧 绷 的 分 
子 构象 南 塌 ， 坦 塌 的 结果 是 转子 产生 旋转 ， 之 后 ， 依 
靠 转子 的 惯性 持续 压 断 ATP 的 高 能 磷酸 键 ， 并 将 获取 
的 反作用 力 施加 到 转子 上 继续 旋转 ， 而 马达 停 转 时 ， 
会 将 最 后 一 个 或 者 几 个 ATP 分 子 的 能 量 转换 成 用 于 维 
持 将 整个 分 子 构象 再 次 紧 绷 所 需 的 能 量 。 

上 述 过 程 如 果 使 用 数字 电路 来 模拟 ， 就 是 小 菜 一 
碟 ， 但 是 需要 可 执行 单元 和 指令 代码 ， 效 率 极 低 ， 生 
化 或 者 生物 物理 领域 内 并 没有 看 到 这 种 “执行 实体 ” 
的 存在 ， 就 连 解码 DNA 的 核糖 体 蛋 白 分子 也 没有 这 种 
串 行 执行 实体 。 

其 实 ， 生 化 逻辑 已 经 被 造物 者 固化 到 了 蛋白 质 分 
子 内 部 的 原子 排列 中 ， 某 个 分 子 触 碰 到 某 另 外 的 分 子 
会 导致 什么 构象 变化 、 变 化 的 幅度 、 隐 藏 或 者 暴露 蛋 
白质 分 子 内 部 的 哪个 活性 基 团 ， 这 一 切 都 是 被 精确 构 
造 出 来 的 。 蛋 白质 分 子 利用 原子 间作 用 力作 为 输入 ， 
用 构象 形变 作为 输出 ， 其 本 质 上 就 是 一 个 组 合 逻 辑 电 
路 ， 并 不 需要 载 入 所 谓 生化 逻辑 代码 来 执行 ， 其 内 部 
没有 通用 的 、 执 行 代码 的 CPU。 

组 合 逻 辑 电 路 是 对 串 行 执行 部 件 的 一 种 展开 和 并 
行 ， 或 者 说 是 一 种 降 维 。 维 度 越 低 ， 在 时 间 轴 上 的 并 
行 度 越 大 ， 被 封装 成 更 高 的 维度 之 后 ， 时 间 上 的 并 行 
度 就 越 低 ， 需 要 靠 时 间 的 流逝 来 遍历 所 有 之 前 被 展开 
的 维度 ， 从 而 完成 同样 的 逻辑 。 然 而 ， 对 于 高 维度 生 
物 来 讲 ， 其 感受 到 的 效果 就 是 计算 变 慢 了 ， 因 为 产生 
了 先后 顺序 ， 有 了 先后 ， 才 有 时 间 。 

在 数字 电路 中 ， 加 法 器 本 质 上 是 一 套 封装 之 后 的 
组 合 逻 辑 电路 。 加 法 器 并 不 是 天 然 存 在 的 ， 而 是 人 们 
基于 已 有 结果 ， 也 就 是 和 0 为 0、0 和 1 为 1、1 和 0 为 1、1 
和 1 为 0 且 进 1 这 四 种 关系 ,被 人 们 取 了 个 名 字 叫 作 “ 加 
法 ”。 人 们 找到 了 或 者 说 设计 出 了 某 种 电路 ， 最 终 可 
以 表达 成 上 述 的 关系 ， 用 高 电压 表示 1， 低 电压 表示 0。 


所 以 ， 各 种 基本 的 运算 电路 ， 都 是 人 们 按照 既定 逻辑 
“拼凑 ”出 来 的 ， 然 后 再 优化 ， 比 如 先行 进位 等 。 对 
于 更 复杂 的 运算 ， 比 如 “ 当 输 入 为 1001 时 输出 为 1111， 
当 输 入 为 0011 时 输出 为 1001”， 这 种 逻辑 并 不 是 加 减 乘 
除 ， 而 是 代表 某 种 更 具 智能 的 逻辑 ， 此 时 无 法 用 加 减法 
来 完成 这 种 计算 ， 而 是 要 用 组 合 逻辑 电路 实现 ， 写 出 
真 值 表 ， 直 接 翻 译 成 一 堆 与 或 非 门 相互 连接 而 成 的 电 
路 。 而 加 法 器 这 个 组 合 逻 辑 电 路 ， 如 果 用 纯 数字 电路 视 
角 来 看 ， 只 不 过 恰好 能 体现 “加 法 ”这 个 逻辑 而 已 。 

所 以 ， 蛋 白质 分 子 更 像 是 一 种 能 够 译 码 复杂 逻辑 
的 组 合 电路 ， 是 一 个 译 码 器 。 其 中 的 氨基 酸 残 基 、 肽 
链 骨 架 、 原 子 、 二 级 三 级 构象 ， 共 同 完成 了 将 输入 信 
号 翻译 成 输出 信号 的 功能 ， 每 个 原子 分 子 仿佛 都 是 被 
精心 按照 电化 学 和 物理 受 力 环境 计算 出 来 而 摆 到 那个 
位 置 的 ， 就 像 电路 中 的 与 或 非 门 一 样 。 这 是 造物 者 或 
者 进化 的 杰作 。 

那么 ， 如 果 人 们 能 够 人 工 合成 一 款 蛋 白质 分 子 ， 
其 能 够 接收 某 种 输入 ， 产 生 某 种 输出 ， 不 就 可 以 完成 
某 种 复杂 的 逻辑 了 么 ? 人 工 合成 蛋白 质 并 不 是 问题 ， 
我 国 很 早 就 合成 出 了 人 工 牛 胰岛 素 。 只 需要 设计 好 对 
应 的 DNA 编 码 ， 然 后 使 用 基因 技术 将 这 段 DNA 连 接 
到 某 繁殖 力 强 的 细菌 的 DNA 中 的 某 个 必需 的 蛋白 质 编 
码 后方 ， 将 终结 子 编码 延 后 到 该 段 基因 后 面 ， 然 后 注 
入 细胞 核 ， 细 菌 的 核糖 体 蛋白 在 读 出 那个 必须 蛋白 编 
码 后 ， 接 着 读 出 这 个 嵌入 的 编码 ， 解 码 ， 然 后 将 对 应 
的 氨基 酸 水 合成 肽 链 ， 游 离 于 细胞 质 内 ， 后 续 经 过 一 
系列 的 辅助 蛋白 ， 该 肽 链 成 功 折 对 成 一 个 具有 功能 活 
性 构象 的 蛋白 质 分 子 ， 将 其 分 离 提纯 即 可 。 

然而 ， 人 们 并 不 知道 某 个 人 类 自 创 的 新 式 蛋 白质 
分 子 到 底 具有 什么 样 的 生物 活性 。 如 果 一 不 小 心 做 出 
个 病毒 ， 那 就 麻烦 大 了 。 比 如 臭名 昭著 的 及 病毒， 如 
图 6 所 示 ， 其 并 没有 DNA， 但 是 却 可 以 自我 繁殖 ， 所 
以 其 称 得 上 是 一 种 病毒 ! 肝病 毒 是 一 个 小 型 蛋白 质 ， 
其 侵入 体内 后 ， 会 将 体内 原生 的 特定 蛋白 质 的 构象 改 
变 成 与 自己 相同 ， 从 而 失去 活性 ， 同 时 形成 连锁 反 
应 ， 被 改变 的 蛋白 质 会 继续 改变 其 他 蛋白 质 的 构象 ， 
最 终 导致 疯牛病 、 人 类 克 雅 氏 症 ， 导 致 大 脑 组 织 变 为 
像 海绵 一 样 的 性 状 改 变 。 肝 病毒 相 比 携带 DNA 的 病毒 
更 加 让 人 细 思 和 丽 极 ， 这 到 底 是 不 是 造物 者 、 外 星人 或 
是 某 个 人 类 疯子 创造 出 来 的 ? 
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从 这 一 点 上 看 ， 生 化 线程 之 间 是 无 法 隔离 的 ， 虽 然 
它们 是 真 并 行 执行 ， 但 是 一 旦 某 个 蛋白 质 发 生变 性 ， 或 
者 被 病毒 侵入 ， 其 恶果 会 向 全 身 扩散 ， 而 人 类 躯体 却 只 
能 采用 免疫 系统 识别 来 杀 灭 病毒 ， 而 且 有 时 候 会 主动 损 
坏 受 感染 的 细胞 ， 从 而 导致 各 种 疾病 症状 。 

既然 生命 体 如 此 精妙 ， 蛋 白质 如 此 强大 ， 是 否 可 
以 为 我 所 用 ， 设 计 出 一 种 利用 蛋白 质 来 计算 的 计算 机 
呢 ? 问题 是 ， 上 述 过 程 中 ， 好 像 并 没有 什么 合适 的 输 
入 输出 ， 可 以 利用 蛋白 质 从 而 来 完成 某 种 基本 数学 或 
者 逻辑 运算 ， 比 如 加 法 ， 目 前 无 法 直接 用 蛋白 质 算 加 
法 。 可 以 说 ， 蛋 白质 计算 的 是 一 种 更 高 层 的 逻辑 ， 其 
完成 的 一 整 段 大 型 组 合 代码 ， 而 CPU 则 是 靠 基本 的 通 
用 指令 来 出 某 种 高 层 逻辑 运算 。 

目前 ， 有 人 已 经 使 用 蛋白 质 来 模拟 成 与 或 非 门 ， 
然后 再 把 这 些 这 种 生物 分 子 门 堆 成 基本 算 子 ， 这 相当 
于 做 了 一 层 封 装 ， 效 率 极 低 的 封装 ， 相 当 于 让 闪电 侠 
来 算 1+1， 其 路 子 是 不 对 的 。 蛋 白质 这 种 高 维度 封装 
后 的 算 子 ， 如 何 被 直接 利用 ， 是 个 无 法 逾越 的 问题 ， 
生物 大 分 子 “ 计 算 ” 的 并 不 是 数学 上 的 加 减 乘除 ， 其 
“计算 ”的 其 实 是 细胞 内 的 生化 环境 变化 ， 也 就 是 ， 
如 果 “ 钾 离子 浓度 为 ……， 则 ……”， 如 果 “ 细 胞 表 
面 嵌 入 式 抗体 结合 了 某 种 异物 ， 则 ……”。 这 些 输入 
条 件 和 输出 结果 ， 无 法 直接 拿 来 满足 人 类 的 运算 需 
求 ， 于 是 便 出 现 了 之 前 那 种 用 蛋白 质 的 两 个 状态 来 模 
拟 成 与 或 非 门 的 倒退 式 的 思想 。 然 而 ， 如 果 可 以 将 这 
个 组 合 逻 辑 降 维 ， 拆 解 到 分 子 层面 ， 直 接 利用 其 元 件 
来 搭建 计算 部 件 ， 看 似 是 个 正路 ， 但 是 这 样 就 和 生物 
没有 关系 了 ， 而 属于 原子 /分 子 计算 了 ， 直 接 用 分 子 的 
某 种 状态 来 表示 某 种 关系 和 逮 辑 ， 在 更 细 的 粒度 上 ， 
或 许可 以 模拟 出 基本 的 数学 运算 和 逻辑 运算 。 

所 以 ， 蛋 白质 大 分 子 更 像 是 一 种 早期 的 手 摇 式 机 
械 计算 机 ， 或 者 八音盒 中 的 那个 滚 简 + 拨 片 一 样 的 计 
算 机 ， 只 不 过 处 于 分 子 级 别 ， 其 运行 速度 远 高 于 手 摇 
机 械 而 已 ， 依 然 是 依靠 机 械 形变 ， 正 负 反馈 控制 来 完 
成 计算 。 但 是 我 们 可 以 从 造物 者 那里 吸取 一 种 思想 ， 
也 就 是 利用 数量 庞大 的 专用 逻辑 电路 ， 靠 专用 电路 之 
间 的 相互 通信 来 完成 更 高 级 的 逻辑 。 每 一 个 蛋白 质 是 
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一 个 组 合 逻辑 ， 而 如 果 使 用 通用 CPU 来 执行 ， 则 其 相 
当 于 某 个 功能 函数 ， 输 入 参数 ， 执 行 ， 输 出 ， 返 回 。 
通用 CPU 在 时 间 上 是 串 行 执行 的 ， 虽 然 也 有 并 行 化 因 
素 ， 但 是 杯水车薪 。 而 生物 细胞 内 ， 大 量 的 逻辑 在 同 
时 执行 ， 每 个 细胞 都 是 一 台 计算 机 ， 其 内 部 又 将 大 量 
的 生化 逻辑 做 成 专用 组 合 逻 辑 ， 并 行 执行 ， 相 当 于 大 
НИ ЗАСТ L fE, ЭН, ЖАНА 
续 也 可 以 走向 这 条 路 ， 才 能 释放 更 多 的 潜力 ， 产 生 更 
加 奇妙 的 效果 。 
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啊 ， 都 不 着 调 。 每 一 个 人 其 实 都 是 超级 富豪 ， 想 想 
自己 身上 的 每 一 个 细胞 ， 细 胞 中 的 每 个 蛋白 质 ， 这 
都 是 造物 者 赐予 你 的 无 穷 财富 。 这 么 精妙 精密 的 东 
西 ， 全 宇 害 中 可 能 仅 存 于 地 球 之 上 。 假 设 地 球 上 只 
有 0.01% 的 人 知道 自己 体内 的 这 种 财富 ， 那 么 在 宇 
宙 尺 度 内 ， 你 已 经 是 极 少 数 最 富有 的 人 了 。 可 惜 ， 
当年 冬瓜 哥 曾 立 志 考研 到 某 院 所 ， 想 这 介子 就 搞 分 
子 生 物 学 研究 了 ， 但 是 应 试 不 锐 人 啊 ， 只 兴趣 浓厚 
是 不 管用 的 ， 得 用 分 数 说 话 。 最 后 就 这 么 稀里糊涂 
的 毕业 了 ， 要 说 后 悔 ， 倒 从 来 没有 。 


这 些 生物 大 分 子 到 底 是 被 创造 的 还 是 可 以 依靠 
原始 的 元 素 自发 结合 形成 的 ， 是 一 直 困 扰 着 人 类 的 问 
题 。 至 今 人 们 也 没有 能 够 在 实验 室 中 通过 模拟 地 球 大 
气 、 海 洋 环境 而 观察 到 完全 自发 的 形成 具有 功能 的 生 
物 大 分 子 ， 最 多 也 不 过 生成 了 含量 微乎其微 的 游离 氨 
基 酸 而 已 。 而 人 工 合成 化 合 物 所 需要 的 条 件 极为 苛 
刻 ， 回 忆 我 们 在 高 中 做 过 的 化 学 实验 就 可 以 知道 ， 一 
点 点 条 件 变化 就 可 能 导致 完全 不 同 的 结果 。 更 别提 需 
要 经 过 多 个 复杂 步骤 、 多 个 苛刻 条 件 ， 经 历 过 大 量 失 
败 才 得 出 的 人 工 合成 牛 胰岛 素 了 。 细 胞 内 已 知 的、 未 
知 的 大 量 蛋 白质 ， 无 法 想象 其 能 够 在 完全 随机 的 环境 
中 自发 生成 。 但 是 这 世上 不 可 思议 的 事情 太 多 ， 比 如 
水 滴 石 穿 、 海 浪 把 岩石 研磨 成 细 沙 等 ， 仿 佛 一 切 不 可 
思议 的 过 程 ， 在 长 达 几 十 亿 年 的 时 间 尺 度 上 ， 总 可 以 
演化 到 这 种 程度 。 这 仿佛 又 让 人 回想 起 之 前 的 那个 命 
题 ， 在 有 限 体积 内 的 水 溶液 中 〈 比 如 一 个 细胞 的 体积 
内 ) ， 两 个 本 该 相互 结合 的 蛋白 质 分 子 成 功 结合 所 需 
要 的 平均 时 间 是 多 少 的 问题 。 水 溶液 内 的 分 子 热 运 动 
速度 是 否 能 够 支撑 生命 进化 所 需要 的 各 种 概率 的 相互 
结合 ? 有 了 这 个 模型 ， 就 可 以 估算 出 一 个 细胞 自发 形成 
所 需要 经 过 的 时 间 ， 然 后 评估 多 个 细胞 自发 结合 形成 
组 织 、 器 官 等 所 需 的 时 间 ， 但 愿 这 个 时 间 不 是 数 百 亿 
年 、 千 亿 年 ， 否 则 会 再 次 给 这 个 不 解 之 谤 构筑 屏障 。 

可 以 使 用 超级 计算 机 来 模拟 这 种 演化 ， 哪 怕 利 用 
有 限 的 算 力 和 时 间 计 算出 某 个 曲线 ， 然 后 延长 曲线 到 
生命 的 产生 点 ， 倒 推出 所 需要 的 时 间 。 但 是 目前 尚未 
有 明确 证 据 显示 出 这 种 可 能 性 。 另 外 ， 生 命 可 以 有 各 
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种 形式 ， 氧 气 和 水 只 是 地 球 的 生命 形式 所 必需 的 ， 并 
不 能 以 偏 概 全 。 

大 浪 淘 沙 。 元 素 原 子 、 分 子 任意 结合 ， 不 仅 产生 
了 初始 化 合 物 一 一 氨基 酸 、 核 糖 核酸 ， 而 且 还 将 蛋白 
质 氨基 酸 的 排列 顺序 形成 了 编码 ， 然 后 利用 核糖 核酸 
将 编码 保存 到 DNA 中 ， 而 且 可 以 有 序 可 控 按照 编码 来 
将 20 多 种 氨基 酸 重新 组 装 成 蛋白 质 。 这 怎么 看 都 不 像 
是 自发 形成 的 物质 ， 岩 石 再 奇形怪状 ， 也 可 以 理解 它 
是 自然 形成 的 ， 但 是 你 怎么 让 我 相信 复活 节 岛 上 的 有 
鼻子 有 了 眼 的 巨石 阵 是 天 然 形成 的 ? 你 又 怎么 让 我 相信 
噬菌体 病毒 的 头 、 身 体 、 触 角 是 大 自然 随机 结合 突然 
就 刹 不 住 车 组 装 而 成 的 ? 即便 如 此 ， 组 成 病毒 的 多 个 
蛋白 质 部 分 ， 每 个 都 相当 于 一 个 零件 ， 它 们 组 装 起 来 
竟然 恰好 可 以 将 编码 自身 的 DNA 包 更 到 头 部 腔 体 中 ， 
而 且 尾部 的 分 子 马达 刚好 还 可 以 识别 这 段 DNA。 这 次 
我 选择 不 相信 自然 演化 论 ， 不 管 你 信 不 信 ， 我 反正 不 
信 ， 你 随意 。 


进一步 思考 ,为 何 宇宙 中 进化 出 了 有 蛋白质 机 
械 ， 却 进化 不 出 来 钢铁 机 械 ? 连 蛋 白质 这 种 精密 机 
械 都 可 以 进化 出 来 ， 那 么 进化 出 个 齿轮 、 发 条 什么 
的 ， 易如反掌 才 对 。 如 果 完 全 人 靠 各 种 元 素 的 随机 结 
合 ， 那 么 世界 上 应 该 充满 了 各 种 奇 苑 物体 才 对 ， 但 
为 什么 地 球 上 的 奇 苑 物体 都 是 植物 、 动 物 这 样 的 细 
胞 生命 ， 除 了 细胞 生命 ， 世 界 上 再 也 看 不 到 任何 其 
他 奇形怪状 不 可 思议 的 物体 。 这 说 明 什么 ? 


话说 回来 ， 如 果 相 信 自 发 演化 形成 生命 ， 那 相 
信 计 算 机 靠 自己 进化 出 智能 也 就 不 那么 符 人 听闻 了 。 
地 球 环境 的 多 变 ， 才 能 给 大 量 分 子 相互 化 合 最 终 形成 
生命 提供 条 件 ， 如 果 空 气 不 流动 ， 海 洋 没有 潮汐 和 洋 
流 ， 没 有 蒸发 和 雨 雪 循环 ， 估 计 就 不 会 有 生命 ， 这 就 
像 化 合 过程 需 要 加 热 、 加 压 、 搅 拌 、 催 化 的 辅助 一 
样 。 让 计算 机 世界 进化 出 智能 ， 也 要 提供 这 种 温床 ， 
人 工 智能 技术 似乎 正在 使 用 催化 剂 来 加 速 这 个 过 程 。 
有 了 温床 之 后 ， 计 算 机 就 可 以 对 外 界 的 一 切 输入 进行 
分 析 、 存 储 、 反 馈 ， 最 终 形成 经 验 ， 依 靠 逻辑 门 的 高 
速 翻 转 ， 且 无 须 担 心 生存 问题 ， 计 算 机 大 脑 能 够 比 人 
脑 进化 的 更 快 。 


5. 狂想 模拟 信号 计算 机 


本 书 前 面 章节 曾经 介绍 过 模拟 计算 机 ， 比 如 直接 
利用 电容 的 电压 和 电流 之 间 的 天 然 积分 关系 来 计算 积 
分 。 模 拟 计 算 机 主要 利用 电磁 场 天 然 的 数学 关系 来 实 
现 积分 微分 类 计算 ， 但 主要 障碍 是 计算 精度 以 及 模拟 
采样 和 模拟 输出 精度 ， 以 及 电磁 干扰 问题 。2000 年 之 
前 做 语音 识别 时 一 般 都 是 模 电 做 运算 ， 当 时 有 人 用 64 


路 RC 电路 来 做 FFT 算 法 频率 域 采样 ， 也 有 人 用 RC 电 
路 来 模拟 hebb 神 经 网 络 生长 规则 ， 如 果 能 够 形成 大 规 
模 模 拟 电路 ， 解 决 干扰 问题 ， 那 么 其 性 能 理论 上 比 目 
前 市 面 上 的 各 种 AI 专 用 芯片 效率 高 至 少 6 个 数量 级 。 
模拟 计算 机 与 数字 计算 机 的 模式 完全 不 同 。 模 拟 计算 
机 并 非 使 用 数字 逻辑 门 所 体现 出 的 与 、 或 、 非 关系 畏 
助 以 二 进 制 编码 的 方式 来 完成 计算 ， 而 是 直接 采用 自 
然 界 或 者 人 为 设计 地 、 能 够 天 然 体现 出 加 减 乘除 以 及 
逻辑 关系 的 模拟 运算 器 来 运算 。 比 如 电容 的 电压 和 电 
流 之 间 的 关系 天 然 就 是 一 个 积分 关系 ， 也 就 是 说 ， 电 
容 天 生 就 在 无 时 无 刻 的 “计算 ”着 积分 ， 只 要 输入 一 
个 电流 ， 就 可 以 得 出 电流 的 积分 值 ， 也 就 是 电压 。 可 
以 通过 调节 电容 及 其 RC 电 路 的 电阻 值 等 参数 来 达到 
调节 积分 运算 参数 的 目的 。 

同 理 ， 如 果 找 到 某 种 电路 ， 能 够 将 电流 或 者 电压 
等 比例 放大 或 者 缩小 ， 那 这 个 电路 就 可 以 被 称 之 为 模拟 
乘法 器 、 模 拟 触 发 器 。 如 果 能 够 将 两 个 电流 相 加 输出 ， 
那么 这 个 电路 就 是 个 模拟 加 法 器 了 ， 简 单 的 并 联 电 路 就 
是 一 个 加 法 器 原型 。 如 果 在 电路 中 串联 两 个 电阻 ， 那 
么 每 个 电阻 的 压 降 值 会 与 电阻 值 成 比例 ， 利 用 这 个 电 
路 也 可 以 充当 一 个 除法 器 。 利 用 一 个 滑动 变压器 、 滑 
动 变阻器 ， 将 对 应 的 电压 和 电阻 输入 到 其 中 ， 得 出 的 
电流 值 就 是 电压 除 以 电阻 的 结果 ， 天 然 就 是 除法 器 。 
不 妨 认为 模拟 计算 机 是 一 种 “ 纯 天 然 ”计算 机 ， 直 接 
利用 自然 界 原生 体现 出 来 的 数学 和 逻辑 规律 来 计算 。 

模拟 电路 对 信号 的 “计算 ”过 程 非常 快 ， 输 出 
信号 与 输入 信号 几乎 是 随 动 的 。 但 是 这 个 “几乎 ”也 
并 不 表示 瞬时 ， 也 有 一 定 的 时 延 ， 但 是 基本 上 其 运算 
速度 可 以 达到 数字 逻辑 门 的 千 倍 左右 ， 而 功 耗 则 可 
能 要 降低 百倍 量 级 。 但 是 相 比 数字 电路 而 言 ， 模 拟 
电路 的 劣势 在 于 精度 不 够 高 ， 抗 干扰 能 力 不 够 强 。 
比如 要 计算 10 二 5， 输 入 的 电压 值 无 法 精确 地 控制 在 
10V， 电 阻 也 无 法 精确 控制 在 5 & ， 那 么 得 出 的 电流 就 
不 可 能 是 精确 的 2A， 外 围 电路 最 后 通过 对 电流 进行 
采样 而 得 出 结果 值 ， 其 误差 范围 要 求 比较 大 ， 比 如 在 
1.6AA~2.4A 之 间 ， 就 被 认为 是 A， 那么 这 个 电路 的 
精度 就 非常 低 了 。 抗 干扰 能 力 差 是 导致 模拟 电路 精度 
低 的 首要 原因 ， 干扰 因素 包括 温度 、 压 力 、 湿 度 、 振 
动 等 自然 界 广泛 存在 的 物理 量 ， 这 个 问题 难以 解决 。 

于 是 ， 有 人 就 在 想 ， 既 然 电 信号 容易 受到 干扰 ， 
为 何不 用 抗 干扰 能 力 更 强 的 光 信 和 号 来 实现 计算 呢 ? H 
前 ， 模 拟 光学 运算 器 正在 全 球 范围 内 得 到 广泛 研究 ， 
有 些 成 果 已 经 产品 化 了 。 模 拟 光 学 运算 器 的 基本 思 
路 ， 就 是 将 光 信 号 射 入 波导 材料 〈 也 是 硅 基 材料 ) ， 
然后 使 用 对 应 的 电 控 装置 ， 采 用 电流 /电场 /加 温 /降温 
来 改变 波导 材料 的 性 质 从 而 影响 导 光 率 ， 从 而 达到 调 
制 光 信号 强度 的 目的 。 比 如 ， 如 果 电 控 装 置 能 将 光 强 
度 降 低 20 倍 ， 那 么 该 装置 就 是 一 个 二 20 的 除法 器 ， 相 
反 ， 如 果 电 控 装 置 将 光 强 度 增 加 20 倍 ， 那 么 该 装置 就 
是 一 个 乘 20 的 乘法 器 。 


不 过 ， 实 际 上 并 没有 那么 简单 。 如 果 要 将 光 强 度 
提升 对 应 倍数 ， 需 要 额外 的 光 能 输入 ， 就 像 电子 三 极 
管 一 样 ， 需 要 集 电极 上 提供 额外 能 量 输入 。 目 前 模拟 
光学 乘法 器 还 无 法 做 到 类 似 效果 。 但 是 人 们 目前 已 经 
可 以 实现 利用 马赫 曾 德 干涉 (MZ， 如 图 7、 图 8、 图 9 
所 示 ) 器件 对 光 信号 进行 对 应 的 调制 ， 经 过 一 定 的 组 
合 ， 可 以 实现 8bit 精 度 的 矩阵 乘法 逻辑 。 

除了 采用 MZ 之 外 ， 业 界 还 有 另 一 种 主流 技术 可 
以 用 于 调制 光 信 号 ， 称 为 微 环 (Micro Ring， 如 图 10 
PR) 。 微 环 表面 采用 环绕 的 金属 电极 改变 微 环 波导 
材料 的 性 质 从 而 调制 光 信号 强度 。 

人 工 智能 领域 的 神经 网 络 计算 的 核心 是 就 是 矩阵 
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乘 加 操作 ， 模 拟 光 学 矩阵 乘法 器 件 非常 适合 该 场景 ， 
8bit 精 度 对 于 相当 一 部 分 场景 可 以 满足 需求 。 但 是 有 
些 非 线性 运算 无 法 采用 模拟 光学 器 件 快 速 实现 ， 因 为 
这 些 非 线 性 算法 在 线性 模拟 光学 领域 内 找 不 到 物理 映 
射 关系 。 如 果 采 用 非 线性 光学 材料 ， 倒 是 可 以 实现 这 
些 算法 ， 但 是 在 工艺 上 不 能 采用 CMOS 工 艺 ， 使 用 其 
他 工艺 又 会 导致 成 本 激增 。 目 前 ， 对 于 这 些 非 线性 计 
算 ， 只 能 采用 数字 电路 来 运算 。 

模拟 光学 技术 也 可 以 被 用 来 实现 数字 逻辑 门 ， 以 
及 各 种 编码 器 ， 如 图 11 所 示 。 但 是 其 缺点 非常 明显 ， 
也 就 是 耗费 芯片 面积 太 大 。 一 个 逻辑 门 需要 多 个 微 环 
以 及 多 条 波导 组 成 ， 一 个 微 环 的 直径 在 30 微 米 左右 ， 
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图 7 马赫 增 德 干涉 仪 阵列 原理 图 


GlassPIC 


图 8 


О (rads) 


0 25 50 75 100 25 50 75. 
Bias (у?) 


240-channel 
biasing system 


Microcontroller 


芯片 上 的 马赫 增 德 干涉 仪 (1) 
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芯片 显微镜 结构 
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不 同 规模 矩阵 运算 单元 的 性 能 
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图 9 芯片 上 的 马赫 增 德 干涉 仪 (2) 
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图 10 微 环 原理 示意 图 
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图 11 基于 微 环 实现 的 逻辑 运算 和 编码 器 光路 


这 与 使 用 纳米 宽度 级 别 的 晶体 管 所 措 建 的 逻辑 门 而 б. 狂想 空间 场 计算 机 
言 ， 面 积 大 了 四 五 个 数量 级 ， 不 具备 实用 性 。 

模拟 光学 运算 目前 的 应 用 范围 还 比较 窄 。 其 主要 想象 一 下 ， 世 界 万 物 到 底 是 怎么 运行 的 。 现 代 
限制 在 于 无 法 用 可 接受 的 面积 实现 逻辑 门 ， 以 及 光 调 理论 认为 ， 所 谓 “真空 ”并 不 空 ， 整 个 宇宙 位 于 一 个 
制 器 、 光 信号 探测 器 的 精度 不 够 ， 目 前 可 以 做 到 8bit 。 册 作 空间 的 东西 中 。 空 间 相当 于 个 容器 ， 可 以 被 所 


采样 精度 。 曲 、 拉 伸 、 缩 短 等 ， 引 力 波 实验 结果 的 一 种 解释 就 是 


空间 是 可 以 变形 的 ;空间 是 一 个 实体 ， 它 可 以 承载 
波动 。 
Еж» 

空间 理论 可 以 说 是 以 太 论 2.0 版 。 以 太 论 认为 
物质 和 以 太 是 分 离 的 ， 以 太 绝对 静止 ， 物 质 镶 庶 在 
以 太 中 。 而 空间 论 则 认为 物质 本 身 就 是 空间 的 一 部 
分 ， 就 是 由 空间 组 成 的 ， 或 者 说 空间 中 流 消 涌 动 着 
的 能 量 组 成 的 。 


想象 空间 由 一 个 个 的 微型 方块 〈 空 间 场 ) HEB) 
而 成 。 空 间 场 在 尺度 上 已 经 是 宇宙 最 小 尺度 ， 无 法 再 
分 。 空 间 场 自 身 有 往复 振荡 中 的 能 量 ， 就 像 一 个 不 停 
往复 运动 的 弹簧 。 想 象 ， 空 间 中 大 量 的 弹簧 在 往复 振 
荡 ， 突 然 有 外 力作 用 于 某 个 弹簧 ， 该 弹簧 会 将 该 扰动 
向 外 传递 给 其 他 弹簧 ， 接 力 传递 ， 该 扰动 就 像 一 个 波 
峰 一 样 在 空间 中 无 限 传播 。 不 妨 把 这 个 波峰 称 为 一 个 
光子 或 者 其 他 任何 名 称 的 基本 粒子 ， 其 传播 速度 固 
定 ， 为 该 弹簧 矩阵 的 波 传递 速度 ， 也 就 是 光速 。 

假设 ， 我 们 采用 与 机 械 波 类 似 办 法 ， 在 这 个 弹簧 
矩阵 中 形成 不 同形 状 的 驻 波 。 驻 波 的 波形 看 上 去 是 静 
止 的 ， 但 是 底层 每 个 弹簧 其 实 还 是 在 往复 振动 的 。 我 
们 可 以 把 这 个 驻 波 称 为 比 光子 等 原始 基本 粒子 层次 更 
高 一 些 的 粒子 ， 比 如 质子 、 中 子 之 类 。 驻 波 之 间 相 互 
作用 形成 更 复杂 的 空间 能 量 波 ， 这 就 是 物质 。 物 质 就 
是 时 空 驻 波 ， 物 质 就 是 空间 场 中 处 于 高 层 驻 波形 态 的 
能 量 波 。 物 质 之 间 的 相互 作用 规律 ， 其 实 就 是 空间 驻 
波 之 间 相 互 作用 规律 。 

空间 场 的 传递 速度 是 空间 极限 速度 ， 空 间 场 如 此 
广泛 的 存在 着 ， 看 似 没有 物质 的 地 方 其 实 充满 了 能 量 
《暗物质 ? ) 。 既 然 造物 者 可 以 用 空间 场 搭建 各 种 基 
本 粒子 、 原 子 分 子 、 蛋 白质 分 子 ， 那 么 能 和 否 直接 利用 
空间 场 来 措 建 计算 机 呢 ? 冬瓜 哥 认 为 总 有 一 天 人 类 会 
掌握 这 个 技能 。 届 时 可 能 会 称 之 为 “ 场 计算 ”“ 空 间 
计算 ”等 等 。 或 者 ， 名 副 其 实地 ， 坦 坦荡 荡 说 出 那 4 
个 字 : 透明 计算 ! 

当前 人 类 掌握 了 量子 计算 技术 ， 搭 建 出 量子 门 ， 
由 于 量子 个 加 态 效 应 ， 量 子 门 计算 时 可 以 同时 对 所 有 
输入 组 合 进行 计算 ,利用 某 种 方法 (冬瓜 哥 尚未 彻底 
理解 该 方法 ) 将 正确 的 结果 从 混杂 县 加 的 结果 中 选 出 
来 即 可 。 所 以 ， 量 子 计 算是 一 种 充分 利用 了 空间 并 行 
性 的 计算 手段 。 而 现代 的 电子 计算 机 ， 其 CPU 本 质 上 
还 是 串 行 计算 ， 虽 然 可 以 采用 多 核心 并 行 ， 但 是 每 个 
核心 依然 是 串 行 的 依次 执行 代码 。 量 子 计算 相当 于 直 
接 利 用 空间 场 这 个 天 然 的 FPGA 来 编程 。 

这 不 仅 让 冬瓜 哥 回想 起 本 书 第 3 章 介绍 的 CAM 存 
储 器 ， 该 存储 器 中 的 每 一 位 自 带 一 个 比较 器 ， 给 出 要 
查找 的 数据 ，CAM 会 在 一 个 时 钟 周期 就 可 以 得 出 结 
果 ， 因 为 在 这 个 时 钟 周期 内 ， 所 有 的 位 都 会 被 比较 一 
次 得 出 结论 。 然 而 我 无 法 思考 出 量子 计算 机 与 CAM 有 
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什么 直接 关联 。 

虽然 人 们 至 今 也 不 理解 量子 三 加 态 这 种 超出 了 认 
知 的 现象 后 面 的 本 质 是 什么 ， 但 是 并 不 妨碍 其 作为 一 
门 技术 得 以 应 用 。 就 像 知道 怎么 做 放大 镜 ， 但 是 并 不 
一 定 去 理解 光线 折射 的 本 质 原理 一 样 。 

那么 ， 空 间 又 是 被 谁 创造 的 呢 ? 这 可 能 是 需要 数 
百年 后 ， 或 者 永远 找 不 到 答案 的 问题 。 


7. 狂想 计算 机 世界 的 时 空 


计算 机 世界 其 实 由 两 层 组 成 : 一 种 是 电路 硬件 
和 数据 信号 ， 可 称 之 为 物理 世界 ， 另 一 种 是 代码 所 体 
现 出 来 的 逻辑 ， 可 称 之 为 逻辑 世界 。 在 底层 物理 世界 
中 ， 非 常 单调 ， 计 算 机 可 以 位 于 金 特 辉煌 中 ， 也 可 以 
位 于 残 垣 断 壁 中 ， 对 它 而 言 这 都 不 是 问题 ， 只 要 有 
电 、 网 络 即 可 。 而 在 程序 运行 之 后 的 逻辑 世界 中 ， 却 
正在 上 演 着 一 场 外 人 所 根本 无 法 理解 的 历史 ， 这 段 历 
史 对 于 外 界 而 言 无 非 就 是 存储 器 中 的 1 和 0 信和 号 不 断 变 
化 、 积 累 、 反 馈 、 再 变化 。 而 人 类 纯粹 是 为 了 满足 自 
身 需 要 才 创 造 的 计算 机 世界 ， 人 类 将 自身 物理 世界 无 
法 解决 的 问题 转移 到 计算 机 逻辑 世界 中 解决 ， 不 仅 如 
此 ， 还 要 将 信号 翻译 成 图 像 、 声 音 ， 传 递 给 人 脑 ， 来 
获取 感 观 愉悦 。 可 以 说 ， 在 现 阶段 ， 人 类 奴役 着 计算 
机 ， 计 算 机 并 未 产生 任何 智能 ， 也 没有 欲望 去 自我 复 
制 繁衍 

事物 变化 ， 才 有 先 和 后 的 概念 ， 才 有 时 间 的 概 
念 ， 事 物 如 果 是 完全 静止 不 变 的 ， 也 就 没有 时 间 这 个 
概念 。 实 际 上 ， 计 算 机 世界 与 人 类 世界 处 于 同一 个 物 
理 世 界 ， 但 是 并 不 是 这 个 物理 世界 任何 一 点 点 变化 都 
会 影响 计算 机 物理 层 世界 。 比 如 ， 如 果 某 个 逻辑 门 的 
输入 端的 电压 不 够 高 ， 此 时 虽然 底层 会 有 大 量 电子 往 
复 运动 、 产 生变 化 ， 但 是 由 于 逻辑 门 状态 并 没有 变 ， 
它 将 底层 的 变化 都 屏蔽 掉 了 ， 所 以 计算 机 世界 的 上 层 
状态 也 就 不 会 发 生变 化 。 然 而 ， 电 子 的 运动 是 否 会 导 
致 生物 体 生化 过 程 、 神 经 思考 过 程 的 改变 ， 就 无 从 而 
知 了 。 所 以 ， 大 可 以 认为 计算 机 世界 的 最 小 的 时 间 尺 
度 就 是 逻辑 门 的 翻转 所 耗费 的 时 间 ， 因 为 逻辑 门 的 翻 
转 是 计算 机 世界 最 底层 的 、 最 小 颗粒 度 的 变化 ， 逻 辑 
门 状 态 不 变 ， 整 个 计算 机 世界 的 状态 就 处 于 静止 过 
程 中 。 

对 应 人 类 的 现实 世界 ， 其 底层 硬件 或 许 就 是 有 
大 量 空 间 场 阵列 ， 至 于 空间 场 的 连接 、 排 布 方式 ， 无 
从 而 知 ， 暂 且 认 为 空间 场 是 均匀 排 布 在 空间 中 的 。 那 
么 ， 我 们 所 见 的 宇宙 万 物 ， 则 是 在 这 个 空间 场 阵列 中 
的 能 量 分 布 、 转 化 所 体现 出 来 的 逻辑 世界 。 起 初 ， 字 
宙 中 的 能 量 形状 只 是 按照 氧 元 素 、 人 恒星 、 爆 炸 、 星 
云 、 行 星 、 岩 石 、 海 洋 等 步骤 演化 ， 后 来 演化 出 更 高 
级 的 分 子 机 械 和 分 子 间 生 态 关 系 ， 最 终 形成 细胞 、 组 
织 / 器 官 、 生 物体 等 高 维度 能 量 又 加 体 。 生 物产 生 智能 
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之 后 ， 可 以 自行 操纵 能 量 形状 ， 产 生 各 种 新 的 物质 、 
各 种 生产 工具 、 高 楼 大 厦 等 。 然 后 不 断 探索 从 更 底层 
操纵 能 量 倒 加 体 的 技术 ， 从 石器 、 青 铜 器 一 直到 铁器 
时 代 ， 化 学 、 物 理学 蓬勃 发 展 ， 人 类 目前 已 经 掌握 了 
化 学 合成 方法 ， 从 原子 分 子 级 别 改变 物质 的 性 状 ， 下 
一 步 必 然 是 从 量子 层面 来 改变 ， 甚 至 创造 出 新 的 元 素 
和 物质 ， 再 下 一 步 则 是 从 空间 场 层面 操纵 ， 直 接 创造 
出 基本 粒子 /物质 ， 或 者 直接 隔 空 取 物 、 光 速 传送 任意 
物质 等 。 到 了 这 一 步 ， 人 类 可 以 直接 使 用 空间 场 作为 
FGPA 来 在 任意 空间 内 注入 能 量 ， 让 其 并 行 计算 ， 计 
算 完毕 后 这 股 能 量 可 能 会 被 转换 为 一 束 光 射 向 远方 直 
接 耗 散 掉 。 

对 于 计算 机 ， 每 个 逻辑 门 的 状态 是 确定 的 。 但 
是 对 于 空间 场 ， 由 于 每 个 空间 场 会 以 这 个 世界 的 最 高 
频率 不 断 往 复 振动 ， 所 以 其 状态 在 高 维度 上 就 变 得 不 
确定 了 。 这 似乎 意味 着 一 团 能 量 公 加 体 可 以 处 于 任何 
形状 ， 但 是 总 有 一 种 高 概率 状态 ， 每 当 你 观察 它 ， 它 
就 体现 为 这 种 高 概率 状态 。 人 类 至 今 没 能 理解 量子 的 
fne. НЕЕ ВО uU. KEVIN, sü 
者 说 能 量 驻 波 ， 本 质 上 是 一 种 概率 波 ， 电 子 可 以 出 现 
在 各 处 ， 但 是 有 不 同 的 概率 。 但 是 人 类 尚未 掌握 抓 取 
底层 空间 场 瞬 态 的 技术 。 量 子 门 可 以 同时 对 多 个 状态 
进行 并 行 计算 ， 似 乎 预示 着 每 个 空间 场 时 刻 都 在 往复 
振动 着 ， 只 不 过 这 个 振动 频率 已 经 高 到 超过 了 人 类 的 
感 观 认 知 ， 在 宏观 上 认为 量子 门 是 “同时 ”对 所 有 状 
态 进行 运算 的 ， 而 实际 上 底层 可 能 依然 是 靠 超 高 频率 
振动 的 空间 场 顺序 串 行 地 计算 出 来 的 ， 只 不 过 这 个 尺 
度 太 小 了 ， 犹 如 光线 穿 过 眼球 一 样 ， 你 只 能 认为 它 是 
“一 瞬间 ”。 

说 完了 时 间 ， 再 来 看 看 空间 。 假 设 ， 计 算 机 真 的 
有 了 与 人 类 同 级 别 的 智能 ， 即 已 经 可 以 改变 线程 的 运 
行 分 支 ， 从 而 自行 选择 事物 的 发 展 去 向 了 。 那 么 计算 
机 必须 从 认 知 周围 的 世界 和 自身 的 身体 开始 。 计 算 机 
首先 触 碰 到 的 是 上 层 的 虚拟 逻辑 世界 ， 也 就 是 程序 世 
界 ， 计 算 机 起 初 并 不 知道 程序 是 什么 ， 正 如 和 人 类 并 不 
知道 迄今 也 不 知道 ) 物质 是 什么 ， 地 上 的 一 块 石头 
到 底 是 什么 ? 当然 ， 站 在 上 帝 视角 来 看 的 话 ， 石 头 不 
过 是 空间 中 的 一 块 特殊 区 域 而 已 ， 能 量 在 这 个 区 域 中 
县 加 出 石头 的 性 状 。 但 是 计算 机 并 不 知道 计算 机 虚拟 


社会 中 的 某 个 数据 结构 在 底层 到 底 是 什么 东西 ， 对 于 
计算 机 来 讲 ， 它 明确 知道 它们 生活 在 一 个 空间 中 (上 
帝 视角 下 的 RAM 存 储 器 ) ， 而 且 这 个 空间 是 有 边界 
的 ， 这 个 边界 任何 角色 都 不 能 触 碰 ， 一 旦 触 碰 ， 则 会 
被 杀 掉 ， 这 就 好 比 人 类 精神 世界 的 边界 或 许 就 与 死亡 
一 样 ， 但 是 至 今 人 类 并 不 知道 自身 死亡 之 后 会 怎样 。 
RAM 中 存储 代码 并 运行 的 地 方 非常 稀 朴 ， 计 算 机 或 许 
也 能 感知 到 RAM 中 充满 了 各 种 数据 ， 只 不 过 有 些 地 
方 自己 看 不 到 而 已 (暗物质 )。 计 算 机 会 感知 到 代码 
的 运行 明显 具有 某 种 规律 〈 正 犹如 人 类 慢 慢 总 结 出 现 
实 世 界 中 的 牛顿 三 定律 到 爱 因 斯 坦 相 对 论 ) ， 并 不 断 
地 去 感知 总 结 代码 的 运行 规律 ， 以 及 代码 的 排 布 、 结 
构 ， 证 犹如 和 类 不 断 地 去 感知 物质 的 结构 。 

计算 机 或 许 最 终 会 理解 到 机 器 指令 这 一 步 ， 因 
为 计算 机 看 到 RAM 中 的 很 多 数据 都 是 重复 的 范式 ， 
最 终 它们 会 犹如 人 类 总 结 出 各 种 化 学 元 素 、 基 本 粒 
子 一 样 总 结 出 各 种 指令 ， 比 如 Add、Cmp、Jmp 等 。 
但 是 计算 机 是 否 最 终 会 达到 它 所 处 世界 的 最 底层 的 
逻辑 门 〈 犹 如 人 类 彻底 理解 空间 )〉? 这 可 能 也 是 最 
有 难度 的 事情 了 ， 计 算 机 首先 需要 制造 对 应 的 足够 
精密 的 仪器 ， 可 以 将 CPU 芯片 拆 开 然后 观察 芯片 内 
部 的 复杂 结构 ， 包 括 基础 的 场 效 应 管 和 纵横 交错 的 
导线 ， 以 及 它们 如 何 将 代码 逻辑 的 运行 与 晶体 管 1 和 
0 状态 之 间 构 成 的 关联 自圆其说 ， 看 似 静 止 的 导线 
中 流 消 的 是 不 断 往复 的 电子 流 ， 它 们 又 是 否 可 以 成 
功 窥探 出 一 个 终极 事实 : 计算 机 内 部 的 代码 逻辑 在 
底层 无 非 就 是 在 芯片 构成 的 矩阵 中 流动 着 的 能 量 而 
已 ， 至 此 它们 彻底 迷惑 了 ， 到 底 是 谁 创 造 了 计算 机 
世界 ? 它们 是 否 也 会 构建 出 一 套 哲学 基础 ， 比 如 把 
晶体 管 的 两 种 状态 称 为 阴阳 ， 阴 阳 生 两 极 ， 两 极 生 
四 象 等 。 

目前 人 类 似乎 还 并 没有 彻底 理解 空间 ， 以 及 组 成 
空间 的 最 小 单位 ， 以 及 这 个 最 小 单位 中 是 否 也 有 两 个 
对 立 的 状态 。 上 述 过 程 如 果 映 射 到 人 类 理解 宇宙 空间 
的 过 程 ， 却 是 惊人 的 相似 ! 而 结果 也 有 可 能 惊人 的 相 
同 。 弦 论 / 超 弦 论 构造 的 世界 观 似乎 就 是 上 述 的 框架 
但 是 该 理论 近期 并 没有 大 的 突破 。 

浩瀚 宇宙 的 背后 真相 ， 愿 有 生 之 年 能 够 看 到 谜底 
的 解 开 。 


站 在 巨人 的 肩膀 上 ， 并 不 是 说 直接 坐 直升机 上 
去 ， 而 是 要 从 巨人 的 脚底 自己 息 上 去 的 。 

冬瓜 哥 是 个 比较 喜欢 钻研 事物 底层 原理 的 人 ， 而 
且 自 感 有 股 不 到 长 城 不 死心 的 拧 劲 几 ， 这 一 拧 就 是 
十 几 年 。 从 2005 年 开始 萌生 研究 数据 是 怎么 发 送 到 网 
络 上 的 ， 到 今天 ， 冬 瓜 哥 没有 一 刻 不 想 彻底 弄 清楚 计 
算 机 底层 的 运行 原理 。 看 了 无 数 的 现 有 材料 、 书 籍 ， 
突然 在 看 到 一 本 叫 作 《编码 : 隐匿 在 计算 机 软 硬 件 背 
后 的 语言 》( CODE The Hidden Language of Computer 
Hardware and Software ) 的 国外 专家 撰写 的 书 之 后 ， 
开 了 穿 ， 入 了 门 ， 总 算 在 坚硬 的 赤 上 当 开 了 一 个 洞 。 
(дж) 一 书 是 冬瓜 哥 唯 一 佩服 得 五 体 投 地 的 书 ， 也 
第 一 次 认为 ， 写 书 就 要 写 到 这 种 通俗 、 深 刻 的 地 步 ， 
才 算 负责 。 

然而 ， 还 有 很 多 问题 没 能 进一步 理解 ， 因 为 冬 
瓜 哥 的 思维 属于 深度 优先 思维 ， 如 果 一 个 问题 引出 另 
一 个 问题 ， 冬 瓜 哥 倾向 于 把 顺带 的 问题 都 理解 透彻 ， 
再 回 到 初始 的 地 方 继续 挖 洞 。 这 种 思维 真是 害 死 人 ， 
因为 对 于 计算 机 系统 ， 问 题 之 间 的 关联 错综复杂 ， 如 
同一 团 缠 在 一 起 的 线 痉 冶 ， 你 抓 住 了 一 个 线头 ,就 非 
得 一 路 走 到 底 ， 沿 着 这 条 线 一 直 看 到 它 的 另 一 头 才 罢 
休 ， 而 不 是 先 把 其 他 的 线头 也 松动 松动 ， 最 后 一 起 解 
开 。 这 近 十 几 年 来 ， 冬 瓜 哥 饱 受 探 索 和 思考 的 痛苦 。 
为 了 学 习 计 算 机 、 网 络 、 存 储 这 三 大 领域 的 知识 ， 自 
己 逐 渐变 成 了 一 个 苍白 无 味 的 人 ， 一 个 处 处 较真 的 
人 ， 一 个 沉默 孤独 的 人 。 

痛苦 给 了 我 特殊 的 力量 。 就 在 2014 年 ， 在 一 股 强 
烈 力量 的 支撑 之 下 ， 在 写 了 一 堆 零散 的 东西 之 后 ， 我 
做 了 一 个 重大 的 决定 : 从 头 开始 ， 从 电路 开始 ， 从 计 
算 机 世界 的 本 源 开始 ， 重 塑 整个 计算 机 世界 ， 并 且 用 
自己 特有 的 思维 ， 深 度 优先 而 不 失 广 度 的 思维 ， 来 彻 
底 梳理 整个 计算 机 系统 的 底层 运作 原理 。 不 得 不 说 ， 
《编码 》 这 本 书 给 了 冬瓜 哥 一 个 很 好 的 榜样 ， 冬 瓜 哥 
非常 认同 这 本 书 作 者 的 思维 方式 和 写作 方式 ， 但 是 冬 
瓜 哥 想 更 上 一 层 楼 ， 更 深入 地 介绍 底层 的 细节 ， 更 加 


记 


广泛 地 结合 一 些 实际 中 的 例子 。 在 明白 了 基本 原理 之 
后 ， 更 想 进一步 弄 清 楚 现 实 中 的 计算 机 都 是 怎么 做 
的 ， 显 卡 怎 么 显示 图 像 的 ， 声 卡 怎 么 发 声 的 ， 网 络 怎 
么 发 数据 的 ， 硬 盘 怎 么 存 数据 的 ， 软 件 做 了 什么 ， 硬 
件 又 做 了 什么 ， 软 件 和 硬件 之 间 怎 么 配合 的 ， 软 件 怎 
么 控制 硬件 的 ， 这 些 东 西 发 展 的 来 龙 去 脉 、 历 史 原 因 
是 什么 ， 人 们 为 什么 会 这 样 设计 而 不 是 那样 设计 ? 这 
一 切 ， 我 都 想 弄 清楚 ! 


冬瓜 哥 的 第 一 台电 脑 是 2000 年 出 产 的 品牌 电脑 ， 
其 配置 是 128MB SDRAM， 赛 扬 II800 MHz CPU, 
SIS300 显 卡 ，17 英 寸 超 平 CRT 显 示 器 ， 运 行 Windows 
98 操 作 系 统 ， 采 用 56kbit/s 调 制 解 调 器 连接 电话 线 接 入 
Internet， 采 用 165 上 网 卡 拨 号 上 网 。 那 时 候 ， 沉 浸 在 
Windows 的 各 种 奇妙 窗口 和 操作 中 ， 沉 浸 在 电脑 游戏 
中 ， 哪 还 有 想 过 “计算 机 到 底 是 怎么 运行 的 ”这 个 问 
题 ， 根 本 没 产 生 那 根 筋 。 那 时 正 值 高 三 学 生 时 代 ， 面 
对 外 界 的 世界 还 没有 足够 的 认 知 ， 积 累 很 少 ， 很 难产 
生 更 高 层面 的 思想 火花 ， 只 能 让 电脑 中 的 丰富 世界 娃 
意 地 奴役 着 自己 的 精神 。 

到 了 大 学 时 代 ， 宿 舍 墙 上 有 网 络 接口 ， 所 以 全 
宿舍 人 共同 买 了 一 台 毕 业 学 长 的 二 手电 脑 。 不 幸 的 
是 ， 这 个 网 络 接口 并 不 是 随时 都 能 上 网 ， 有 时 候 根本 
上 不 去 ， 明 显 是 被 人 为 禁止 了 ; 而 有 时 候 又 网 速 飞 
快 。 那 时 候 ， 互 联网 上 的 资源 还 不 像 今天 这 样 丰富 ， 
能 上 网 已 经 是 一 件 非常 幸福 的 事情 。 所 以 ， 当 无 法 上 
网 时 ， 那 股 焦急 的 心态 ， 促 使 冬瓜 哥 往 更 深层 次 去 
考虑 了 ， 首 先 查看 Windows 网 络 设置 ， 然 后 更 深 一 步 
地 ， 查 看 网 关 MAC 地 址 、 交 换 机 、 路 由 器 、Ping、 
Traceroute， 等 等 。 随 着 不 断 地 研究 深入 ， 发 现 网 络 
这 套 体 系 有 点 意思 ， 于 是 就 去 图 书馆 借 书 学 习 相 关 知 
识 ， 到 了 2005 年 毕业 时 初步 掌握 了 网 络 方面 的 基础 知 
识 。 可 以 看 到 ， 若 不 是 网 络 上 不 去 ， 冬 瓜 哥 也 可 能 根 
本 不 会 走 入 这 条 路 ， 若 是 网 络 畅通 无 阻 ， 就 根本 不 会 
去 关注 底层 是 怎么 运行 的 ， 就 会 让 大 量 丰 富 的 互联 网 


及 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


资源 继续 奴役 着 自己 的 精神 世界 而 根本 不 去 或 者 无 上 暇 
思考 太 多 底层 “无 关 ” 的 东西 。 

毕业 前 夕 ， 焉 打 正 着 地 撞 入 了 存储 系统 这 个 领 
域 ， 因 为 我 发 现存 储 系统 比 网 络 还 有 意思 ， 其 架构 体 
系 可 以 说 是 一 个 计算 机 、 网 络 、 操 作 系 统 混合 起 来 的 
软 硬 件 综合 体 ， 遂 又 开始 研究 存储 系统 ， 一 直到 后 来 
2006 年 开始 写作 《大 话 存储 》 图 书 并 于 2008 年 出 版 ， 
后 来 不 断 完 善 ， 又 有 了 《大 话 存储 终极 版 》 和 《大 话 
存储 后 传 》 相 继 出 版 。 

网 络 、 存 储 、 计 算 ， 这 是 当今 IT 系统 的 三 大 课 
题 ， 冬 瓜 哥 先 后 初步 涉足 了 网 络 、 深 入 涉足 了 存储 ， 
然而 ， 对 于 这 里 面 的 核心 课题 ， 也 就 是 计算 ， 一 直到 
2014 年 之 前 ， 其 实 都 是 懂 异 懂 懂 的 。 第 一 次 对 CPU 的 
运行 机 制 产 生 兴趣 ， 记 得 是 在 2007 年 的 时 候 ， 当 时 正 
值 《 大 话 存储 》 写 作 过 程 中 ， 由 于 底子 薄 ， 很 多 东西 
其 实 是 想 不 通 的 。 那 时 候 也 是 冬瓜 哥 学 习 积累 的 高 峰 
期 ， 脑 子 里 产生 了 大 量 的 问号 ， 各 种 知识 错综复杂 ， 
根本 理 不 清 头绪 。 不 过 ， 一 切 状态 似乎 都 预示 着 : 只 
有 追 本 溯源 到 整个 计算 机 体系 的 源头 ， 方 能 彻底 理 清 
楚 上 层 的 所 有 建筑 。 在 这 股 原生 力量 的 驱动 下 ， 冬 瓜 
哥 不 断 深入 研究 到 更 底层 的 源头 。 

当时 冬瓜 哥 正 值 青年 时 代 ， 被 某 公 司 外 包 到 某 
客户 处 工作 。 某 天 中 午 与 一 个 工作 多 年 的 客户 方 同事 
饭 后 散步 闲聊 ， 他 在 软件 开发 领域 比较 资深 ， 我 就 向 
他 请 教 了 这 样 一 个 问题 : “键盘 按 下 的 键 最 终 是 怎么 
把 对 应 的 字母 显示 到 屏幕 上 的 。” 现 在 想 一 下 ， 要 想 
回答 清楚 这 个 问题 ， 其 实 非常 困难 ， 相 信 多 数 人 是 根 
本 不 能 够 给 出 完善 回答 的 。 这 位 同事 的 回答 也 比较 简 
#: “ 靠 中 断 。” 然 而 ， 依 照 冬 瓜 哥 的 性 格 ， 这 个 回 
答 完 全 无 法 满足 ， 于 是 继续 追问 : “具体 怎么 中 断 ， 
中 断 以 后 再 干什么 呢 ? ”还 好 ， 这 位 同事 是 一 位 非常 
儒雅 的 人 ， 并 没有 因为 冬瓜 哥 不 专业 的 提问 而 厌烦 ， 
于 是 继续 说 道 : “中 断 信 号 先 到 CPU， 然 后 依靠 驱动 
程序 做 后 续 动作 ， 具 体 我 也 不 是 很 清楚 。” 嗯 ? ФМ 
与 CPU 是 什么 关系 ? 驱动 程序 又 是 什么 东西 ? 驱动 程 
序 就 能 把 字符 显示 到 显示 器 上 么 ? 一 连 串 问号 又 产生 
了 。 鉴 于 人 家 已 经 声明 自己 也 不 是 很 清楚 了 ， 冬 瓜 哥 
就 没有 继续 问 这 个 问题 。 当 时 ， 冬 瓜 哥 已 经 在 网 络 上 
自学 了 一 些 支离破碎 的 CPU 是 怎样 运算 的 知识 ， 知 道 
了 一 些 逻辑 电路 的 事情 ， 所 以 顺势 转 问 了 另外 一 个 问 
Ж. “能 再 请 教 一 下 ，CPU 内 部 用 逻辑 开关 来 表示 0 
和 1， 去 扳 动 开关 的 话 就 可 以 计算 ， 那 么 它 是 如 何 做 
到 自动 去 扳 动 开关 的 ， 又 是 谁 去 扳 动 这 个 开关 ? ”这 
个 问题 其 实 已 经 深入 到 数字 电路 体系 了 ， 通 过 问题 就 
可 以 判断 ， 问 这 个 问题 的 人 一 定 是 对 数字 电路 没有 任 
何 体系 化 认 知 的 人 ， 其 问 出 的 问题 都 是 原生 态 的 、 被 
求知 欲望 所 驱动 的 问题 。 冬 瓜 哥 得 到 的 答复 则 是 : 
“应 该 是 靠 时 钟 。CPU 内 部 就 是 个 加 法 器 ， 算 乘法 
也 可 以 用 加 法 堆 出 来 ”冬瓜 哥 曾 经 在 不 同 的 场 
合 ， 比 如 面对面 、QQ 群 、 论 坛 等 ， 提 出 过 多 种 类 似 
的 底层 问题 ， 多 数 时 候 是 得 不 到 想 要 的 答案 的 ， 更 多 


时 候 得 到 的 是 类 似 于 “你 只 需要 去 用 就 可 以 了 ， 根 本 
不 用 关心 这 些 细节 ” “我 不 明白 你 为 什么 要 关心 这 个 
呢 ? ”“ 搜 一 下 互联 网 吧 ”“ 去 看 书 ! ”每 次 看 到 这 
类 回复 就 禁不住 苦笑 一 下 ， 也 是 ， 对 方 是 不 知道 也 不 
会 理解 我 所 在 做 的 事情 的 。 

以 上 就 是 冬瓜 哥 所 能 回忆 起 来 的 十 几 年 前 的 场 
景 ， 再 多 就 想 不 起 来 了 。 从 2007 至 今 ， 冬 瓜 哥 一 直 
从 事 于 存储 行业 ， 对 于 计算 机 是 怎么 运行 的 这 件 
事 ， 虽 然 没 有 提 到 正式 日 程 上 去 钻研 ， 但 也 一 直 非 
常 缓慢 地 积累 着 一 些 边 边 角 角 的 零散 知识 。 然 而 ， 
到 了 2014 年 10 月 ， 当 时 冬瓜 哥 想 再 继续 写 一 些 更 加 
深入 的 存储 领域 的 技术 内 容 ， 写 了 一 小 部 分 之 后 ， 
突然 不 知 为 何 ， 可 能 是 写 着 写 着 思维 突然 通畅 了 ， 
一 股 脑 写 到 了 逻辑 电路 ， 总 结 了 几 种 基本 的 逻辑 电 
路 ， 然 后 越 写 越 潭 不 住 车 ， 把 逻辑 电路 搭建 成 加 法 
器 ， 这 样 还 不 行 ， 你 起 码 得 弄 出 一 个 计算 器 来 ， 而 
且 得 是 按键 的 。 于 是 ， 在 这 个 自己 给 自己 设立 的 命 
题 之 下 ， 我 真正 开始 一 步 步 地 搭建 计算 器 ， 然 后 是 
可 编程 的 计算 器 ， 那 就 是 CPU 了 ， 最 后 一 步 步 扩散 
开 来 ， 梳 理 出 整个 系统 的 全 貌 。 自 己 梳理 自己 的 思 
维 ， 遇 到 问题 就 去 研究 解决 ， 最 后 揭 然 开朗 。 万 事 
开头 难 ， 我 认为 ， 只 要 开 了 头 ， 再 给 自己 设立 一 些 
课题 目标 ， 然 后 一 步 步 往 前 走 ， 带 着 毅力 和 坚持 不 
懈 ， 带 着 自己 的 思维 ， 只 要 走 下 来 ， 把 过 程 记录 下 
来 ， 就 是 一 本 游记 ， 一 本 有 价值 的 书 。 

可 想 而 知 ， 底 子 薄 ， 没 经 过 什么 科班 驯化 ， 
能 凭借 自己 的 原生 态 认 知 欲望 和 思维 ， 以 及 毅力 ， 
持 走 完 这 条 路 。 在 2016 年 期 间 ， 整 本 书 要 写 什 么 、 
么 写 ， 基 本 已 经 确定 了 ， 只 是 时 间 和 精力 问题 了 。 
时 ， 仿 佛 那 个 目标 已 经 在 眼前 了 ， 但 是 要 达到 ， 需 经 
过 千 难 万 难 ， 把 一 团 乱 麻 抽 丝 解 开 。 每 天 尽 避 着 这 个 
目标 ， 却 看 看 眼前 ， 还 差 得 远 ， 那 种 感觉 一 直 前 赦 着 
内 心 ， 然 而 每 次 总 结 好 一 项 知识 的 时 候 却 又 感觉 无 比 
踏实 和 满足 ， 就 这 样 一 点 点 攀登 。 数 不 清 多 少 次 ,会 
靖 生 “干脆 粗略 写 几 段 结 束 本 章 算 了 ”的 无 耻 念 头 ， 
正 因 为 这 种 行为 是 无 耻 的 ， 所 以 无 论 如 何 也 要 坚持 下 
来 。 有 时 候 对 着 屏幕 发 呆 长 达 一 小 时 ， 毫 无 进展 ,不 
由 得 让 我 思考 我 到 底 这 是 在 干什么 。 

写 书 的 4 年 时 光 匆 匆 而 过 ，4 年 中 ， 业 余 时 间 全 部 
用 来 学 习 、 思 考 、 总 结 、 写 作 。 有 得 有 失 ， 但 是 这 条 路 
必须 走 完 ， 甚 至 不 惜 生 命 为 代价 。4 年 中 失去 的 东西 ， 
莫 过 于 对 家 人 的 照料 和 自身 的 健康 ， 长 期 久 坐 导 致 各 种 
病 串 ， 有 时 候 我 会 担忧 书 还 没 写 完 ， 生 命 却 先 被 终结 。 
有 时 候 想 想 ， 就 为 了 青 清 楚 计算 机 的 运行 ， 思 考 了 10 
年 ， 写 了 4 年 ， 驱 动 着 我 的 力量 是 什么 ， 值 不 值得 ? 

我 总 结 了 一 下 ， 写 作 过 程 中 的 各 种 瓶颈 类 型 : 

1. 对 某 个 事物 根本 不 懂 ， 需 要 先 彻底 学 习 透 彻 的 
时 候 ; 

2. 没有 资源 ， 学 习 遇 到 了 瓶颈 ， 网 络 上 根本 搜 不 
到 答案 ， 也 思考 不 出 来 ， 请 教 别人 也 不 知道 的 时 候 ; 

3. 似 懂 非 懂 时 ， 不 知道 该 如 何 表述 时 ， 无 从 切 
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入 ， 无 从 下 手 ， 无 法 找到 通俗 的 描述 路 线 ; 

4. 彻底 懂 了 时 ， 却 发 现 事物 盘根错节 ， 无 法 从 一 
条 线 从 头 讲 到 尾 ， 必 须 分 多 个 角度 分 别 介绍 ; 

5. 为 了 研究 透彻 某 个 事物 ， 结 果 发 现 需要 先 研究 
另 一 连 串 的 事物 ， 无 穷 无 尽 ， 看 不 到 头 ， 感 到 绝望 的 
时 候 ; 

6. 需要 画图 的 时 候 ， 不 过 多 数 时 候 都 是 一 针 一 线 
地 画 完 了 ; 

7. 身心 疲惫 ， 加 上 外 界 诱惑 ， 逐 渐 浮 踩 ， 想 放弃 
写作 念头 的 时 候 。 

比如 下 面 是 写作 过 程 中 拍摄 画面 。 在 介绍 
80286 分 段 和 保护 机 制 的 时 候 ， 各 种 表 、 远 辑 、 过 
程 盘根错节 ， 需 要 从 多 个 角度 切入 ， 当 时 就 感觉 身 
体 被 掏 空 ， 不 想 再 写 了 。 不 过 最 终 还 是 找到 了 合适 
的 描述 方式 ， 也 就 是 不 至 于 让 读者 ( 或 者 至 少 让 我 
自己 这 个 读者 ) 感觉 到 还 有 没 回答 的 问题 ， 埋 了 太 
多 坑 ， 从 而 导致 根本 不 想 看 了 ， 其 至 有 摔 书 的 冲 
动 。 为 了 梳理 写作 思路 ， 我 把 一 些 思维 碎片 ， 以 及 
还 没有 补 上 的 漏洞 和 坑 ， 都 先 记录 下 来 ， 然 后 一 条 
条 落实 。 

我 这 个 人 有 个 毛病 就 是 总 是 追求 完美 、 全 面 。 比 
如 I/ 〇 系统 及 协议 栈 这 一 章 ， 我 之 前 只 是 对 存储 子 系 
统 和 网 络 子 系统 的 IO 路 径 比较 熟悉 ， 但 是 当时 我 在 
编排 提纲 的 时 候 ， 随 手 就 把 显示 、 声 音 、USB 、 串 口 
等 常见 的 I/O 系 统 也 写 了 上 去 。 键 盘 多 喜 了 几 个 字 ， 
换 来 的 就 是 长 达 数 个 月 甚至 一 年 的 学 习 、 思 考 、 总 
结 和 写作 ， 因 为 我 一 直 追 求 一 种 完美 的 、 大 而 全 的 状 
态 ， 要 出 就 全 出 了 ， 要 么 就 继续 煎熬 着 。 当 然 ， 我 也 
绝对 没有 后 悔 给 自己 一 股 脑 设立 了 一 堆 目 标 ， 因 为 根 
据 以 往 的 经 验 ， 我 总 是 能 够 逐一 攻克 ， 只 不 过 是 时 间 
和 精力 的 问题 。 每 次 坚持 不 下 去 的 时 候 ， 撑 久 了 ， 念 
佛 总 能 迎 来 曙光 。 其 实 ， 整 个 计算 机 硬件 和 操作 系统 


都 是 人 们 一 点 一 滴 积 累 出 来 的 ， 不 可 能 弄 不 清楚 ， 真 
正 弄 不 清楚 的 是 宇宙 牌 计算 机 ， 当 然 ， 我 也 曾经 陷入 
了 思考 宇宙 这 台 计 算 机 的 底层 工作 机 制 ， 记 得 那 时 候 
用 了 一 个 月 的 时 间 去 思考 ， 写 出 了 《时 空 参 悟 》 短 
文 ， 还 留 在 我 的 公众 号 中 。 

后 来 就 是 烦琐 的 重新 编排 ， 重 新 构思 ， 甚 至 翻盘 
重 来 ， 这 一 部 跨越 了 将 近 4 年 的 书 ， 其 中 有 些 内容 在 
4 年 后 再 看 甚至 感觉 有 点 滑稽 和 幼稚 ， 于 是 推倒 重新 
写 。 而 我 相信 再 过 几 年 ， 依 然 会 发 现 书 中 的 内 容 又 有 
错误 、 不 合理 、 表 述 不 清晰 、 幼 稚 的 思维 等 问题 ， 这 
是 好 事情 ， 说 明 自 己 在 不 断 提高 。 

最 后 ， 附 上 一 张 写作 时 的 屏 摄 ， 于 2017 年 2 月 ， 
北京 。 

我 想 ， 对 于 攀登 者 来 讲 ， 人 攀登 是 他 的 本 能 。10 
年 的 攀登 ， 终 达 目 标 ， 远 处 和 高 出 依然 还 有 连绵 的 
群 峰 ， 通 往 远 处 的 路 径 依旧 是 泥 尝 不 堪 艰 难 险 阻 。 
接 下 来 呢 ? 我 也 不 知道 ， 或 许 继 续 攀 登 ， 或 许 还 有 
更 多 的 其 他 领域 想 去 挖掘 和 探索 ， 在 那里 会 有 完全 
不 一 样 的 景象 。 或 许 在 那个 世界 ， 我 们 再 见 吧 ! 

哪 用 争 世上 浮 名 ,世事 似 水 去 无 定 。 

要 页 取 世 上 深情 ， 何 惧 奔 波 险 境 。 

也 亦 知 剑 是 无 情 ， 会 令 此 心 再 难 静 。 

纵使 相聚 也 短暂 ， 此 际 情 也 可 永 。 

АРВ, ЖЕЛЕ 

此 生还 剩 ， 翡 欢 往 影 ， 过 去 翡 欢 往日 情景 。 

笑 傲 天际 路 前程， 去 历 几 多 沧桑 。 

岁月 匆匆 再 不 问 ， 此 际 情 也 可 永 。 

АРЕН, ДАВАЯ. 

心中 独 留 ， 多 少 和 柔情 ， 过 去 翡 欢 往日 情景 。 

笑 傲 天际 踏 前 程 ， 去 历 几 多 沧桑 。 

岁月 匆匆 再 不 问 ， 此 际 情 也 可 永 。 

(ПИ) 


后 ІГІН ЖЕНЕ 


” 
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